日本人ゲノム(2)

http://www.nature.com/ng/journal/vaop/ncurrent/abs/ng.691.html

ちなみにこの研究のための計算は、東大医科研ヒトゲノム解析センターのスパコンシステムを用いて行われたようです。

結果について

使用したサンプルはHapMapでも用いられた日本人ゲノムNA18943。これは理研の自前ではなくCoriell Instituteというところから購入したものだが、もともとは理研-医科研で収集したものという複雑さ。ちなみにcell lineなのでmutationは、間違いなく入っている。ここは少し気になるところ。

次世代シークエンサーを用いて、この日本人ゲノムをのべ121ギガベース読んだらしい。ヒトゲノム長が3ギガベースだから、実際の配列の40倍以上読んでいる。前回書いたように、次世代シークエンシングでは短いリードをアセンブルしてヒトゲノムを構築するのだが、同じところを何回も読めば間違いが少なくはなるだろう。したがってこの、「何倍読んだか」というのが次世代シークエンスの正確性を保証しており、今回の場合「x40のcoverage」といってかなり信頼度が高い。ちなみに現時点で次世代シークエンスの結果を公開している1000 genomes(1000 Genomes | A Deep Catalog of Human Genetic Variation)の結果は、わずかx2のcoverageである。彼らは最終的なhigh coverageのデータを今年中に出すと言っていたのだけど、ほんとかねえ。

次にSingle Nucleotide Variation、SNVというものについて述べている。人間は通常2本の染色体を持っているのだが、特定の場所で二つの異なる塩基をもつ場合がある。たとえば片方ではAT[A]TA、もう片方はAT[G]TAだったりする。このようなものを本論文ではSNVと呼んでいるようである*1。白人配列と直接比べればいいと思うんだが、なんでSNVに着目したのだろう。多分SNPとのちのち関連付けたかったんだろうとは思う。結果的に、3,132,608の「SNV (single nucleotide variation」を見つけたとのことである。そのうち12.6%はdbSNPと呼ばれる既存のデータベースにSNPとして登録されていなかったので、正しいなら日本人特異的な変異なのかもしれない。これは価値のある情報だ。まれな変異であるためこれまで見つかっていなかったか、もしくは日本人特異的な変異である可能性がある*2

これらのうち9783はnon-synonymous と言って、タンパク質のアミノ酸配列を変える可能性がある変化、96はnonsenseと言って、タンパク質の合成が途中で止まってしまうかもしれない変化だった。また217,176の短い挿入、228,063の短い欠失配列を見つけている。つまりこれらの部分では、人によってゲノム配列の長さが異なっており、白人(というかワトソン氏)には存在するのにこの日本人にはない配列や、白人(というかワトソン氏)にはない配列が日本人でははさまっていたりする場合があったわけだ。確認しますが、これ病気のサンプルではないですよ*3。健康なあなただって、ゲノムDNAが人より少し短いですねっていう場所はいくらでもあるっていうこと。というより短いってなにより短いのかっていう話にもなる。「正常なゲノム」などないのである。リシークエンス(前日の記事参照ください)の際にテンプレートとなるワトソンのDNAのことも、referenceつまり「参照配列」とは言うが、normal sequenceとは言わないのである。まあワトソンおじいさんも長生きしてらっしゃるのでどちらかというと健康なほうだとは思うけど。ゲノム解析はこんなことを明らかにする。

次に著者らはこの日本人ゲノムを、既知の他人種の全ゲノム配列:白人(ワトソンとベンター)、黒人、アジア人(韓国人2人、中国人1人)と比較した。・・・のだけど、なんか僕が知りたい情報、つまり「日本人と韓国人と中国人はどれだけ似ていてどれだけ違っているのか?」とかが、論文の文章からはよくわからないんだよね。たとえば白人とアジア人でゲノム配列が違うところは、たしかに肌を白くしたり髪の毛を金髪にしたり目を青くしたりするところなんだろうか?とか気になりませんか。

そのあとはstructural variationといって、わりとおおきな配列が抜けたり繰り返したりすることの解析結果をのせている。方法論的は面白いが、飛ばす。

意義について

まあそんなわけで、バーっと読んだ限りでは別に面白いことは書いてない(方法論レベルでは別ですよ)。しかし前日の記事にも書いたとおり、この日本人ゲノム配列は、それ自体が重要というよりは、今後の次世代シークエンス技術を用いたリシークエンシングにおいて、重要なリファレンスとなるものである。これができたことで、今後より簡単に日本人の全ゲノム配列が得られるようになる。そうして何十人もの日本人ゲノムを得てはじめて、様々な考察を行えばよいのだろう。

全ゲノムを読むような次世代シークエンシングから何がわかるかについて軽く書いてみたい。

頻度がまれな病気について

これまでわかっていなかった病気の原因遺伝子を見つけることができるようになる。実を言えば、これは既にできちゃっている。たとえば強力な遺伝性の病気の家系について考えよう。家系内で病気を発症している人は親から遺伝素因を受け継ぎ、発症していない人は受け継いでいないと考えられる。ここで全ゲノムシークエンスしてみよう。病気の人だけに存在する、機能的に意味のある変異、これが病気の原因である*4。簡単に書いたが、こんなことはこれまでできなかった。全ゲノムのシークエンスなんて非現実的だったのだ。まずはこれができると誰もが思ったし、実際できた。強い遺伝性をもつ病気の原因遺伝子は、早晩全てが明らかにされる。これは間違いのないことだ。こういう病気はかならず頻度がまれである。頻度がまれな遺伝性疾患の原因は全て明らかになる。たとえばこれまで連鎖解析をやらなければいけなかったときほどのただしい家系情報すら必要ないだろう。

頻度の高い病気

これは精力的に行われているゲノムワイド関連研究の主要な対象である。ゲノムワイド関連研究では、ヒトゲノム上30万-100万個のマーカーを調べているが、これが全ゲノムシークエンスになってヒトゲノム30億塩基を全部読んでしまうと何が変わるだろうか。マーカーではうまくわからなかった違いもつかまえられるだろう。これがどれだけあるか、まだよくわからない。実を言うと僕はあまりおおきな改善があるとは思っていない。

その他

あとは例えば癌研究などへの応用がある。二つ前くらいのエントリに、癌では正常組織と癌組織のDNAを比較することが重要と書いた。これも次世代シークエンス技術で全部読んじゃうことによってはじめて、実質的に意味の有る解析ができるようになったと言える。

*1:ちなみに似たようなものにSNPというのがあるが、その場合「集団内に」1%以上なければならず、たった一人の個人ゲノムの結果であるこの研究ではそもそもSNPは対象ではない

*2:ブクマコメントをもとに修正しました

*3:ただし実は、完全に健常という保証もない。というよりも、端的に言えば、このDNAと臨床情報との結合は一切不可能である。日本人であるという以外の情報は全て失われている。興味があればCoriel Instituteのwebsiteを参照のこと。NHGRI Collection - International HapMap Project

*4:たとえばhttp://www.nature.com/ng/journal/v42/n1/abs/ng.499.html、これはexome sequencing。