ランダー・グリーン アルゴリズム(1)

お気に入り経由で以下の記事を読んでとてもおもしろかったのですが、

http://ama.an-pan-man.com/archives/814

原文も読んで確認もしたんですけど、エリック・ランダーが自己紹介するにあたって「ランダー・グリーンアルゴリズム*1」について一言も触れてない。

これはとても美しいアルゴリズムで、隠れマルコフモデルの遺伝家系データへの適用で、最初にこれを思いついたのは天才だと私は思う。今でもこのアルゴリズムは応用されており、たとえば次世代シーケンサーのデータにおいても行われるハプロタイプの相決定や、imputationアルゴリズムと言ってヒトゲノム上数十万のマーカーデータから、相関構造を利用して一千万以上のマーカーデータを推定するというのに使われます。

わたしは数学出身ではありません。EMアルゴリズムのDempster論文も、なんとか読み終えることは出来ましたというレベル。私などがこれを正しく紹介できるかわかりませんが、他のお気に入り経由で読んだ(やや古い記事ではありますが)

satomacoto: Pythonで隠れマルコフモデルのFilteringの例

を読みまして、例示というのもそれなりの意味はあるものと思いました。

そこで、自分の理解の確認がてら、ランダー・グリーンアルゴリズムをご紹介してみようと思います。わかりやすさのため、元論文そのままの表現ではなく、その後の拡張であるKruglyak論文*2や教科書*3 *4などでの表現も必要に応じて流用しています。

問題設定

ランダー・グリーン・アルゴリズムが解こうとする問題は、

「ある家系があって、その家系内で疾患が多発している。また、その中の十分な数の方々からDNAの提供を受け、DNAデータがある。この病気の原因遺伝子座位を知りたい」

です。こんな感じの家系があるわけです。

2013年現在、ここ数年の進歩を元にすると、百万円くらい出せばもう一人分の十分な精度のヒトゲノム全長を得られてしまうので、この程度の大きさの家系なら全例シークエンスして、単純に比較してあとは機能予測すりゃいいじゃんてなもんですが(そーゆー論文がいっぱい出ています)、なにしろ25年ほど前に考えだされたアルゴリズムです。この時点では、ヒトゲノム上でタイピング可能な多型はたかだか数百〜数千程度であったとご想像下さい。問いかけをより正確に書けば、これらをマーカーとして、どれが原因遺伝子座に近いか?ということになります。

歴史的意味しかないと思ってしまうかもしれないけれど、こんな25年前のアルゴリズムが今の次世代シーケンサー解析で応用されている事自体が、この進歩の速い学問分野においては、かなり先駆的な業績だったと思います。

生物学的な前提

遺伝統計学を正しく行うには、生物学の知識もしっかりしていなければなりません。

まず、DNAがヒトなど生物の基本的設計図になっていて、それをもとに転写産物やタンパク質がつくられ生物がつくられます。セントラルドグマと言いますが、その例外の存在もすでにわかっています。

DNAは、22本の常染色体と1本の性染色体からなっており、そのそれぞれが一対のペアからなっていて、ただ男性の性染色体だけはXとYという別々のものからなります*5

常染色体上のある一点を取ると、そこにはペアの染色体に由来する二つの情報があります。情報、というのは、ヌクレオチド(アデニンA、シトシンC、グアニンG、チミンT)でもいいし、挿入欠失(片側はACTGTCなのにもう片側はAC--TCとなっている、だとか、集団間での同様の違いとか)でもいいし、リピート配列の違いでも言いし、HLAやCYPのように遺伝子そのものでもいいし、とても長いコピー数多型でもいいです。一つの情報のことをアレル(対立遺伝子)と言います。すると、一つの場所には一対二つのアレルがあることになります。このような場所のことを遺伝的座位(ローカス)と呼びます。二つのアレルの組み合わせを遺伝型(ジェノタイプ)と呼びます。

一番わかり易い例は血液型です。血液型はA, B, Oに対応したアレルが3種類あり*6、可能なジェノタイプは、

AA
AB
AO
BB
BO
OO

です。それで、最終的に人間の特徴として現れるもの、表現型(フェノタイプ)は、上からA, AB, A, B, B, Oとなります。

このペアの染色体のうち片方だけが、親から子に伝達されます。片親から子という状況を考えていますが、ここで、親の染色体ペアのそれぞれが「祖父由来」「祖母由来」であることに注意しましょう。生物学的に重要なのは、この伝達がされるとき、真核生物では、ですけど、減数分裂meiosisといって、受け渡される染色体がどちらか選ばれますが、この時「祖父由来」の染色体がまるごと子に伝達されるわけではありません。乗り換えcross overという現象が起こるため、祖父由来と祖母由来がモザイク状になった染色体が、子に受け継がれることになります。

*1:Lander ES and Green P. PNAS 1987

*2:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1915045/pdf/ajhg00019-0253.pdf:Kryglyak L et al. AJHG 1996.

*3:Balding DJ, Bishop M, Cannings C. Handbook of Statistical Genetics. John Wiley & Sons 2007.

*4:Thomas DC. Statistical Methods in Genetic Epidemiology. Oxford University Press 2004.

*5:ただしX、Y間にはpseudoautosomal regionというペアと考えられる領域もあります

*6:ほんとはもっと多くて、かなり大雑把に言ってもAとOは二つずつにわかれて合計5個ですが