ランダー・グリーン・アルゴリズム(4)

小沢新党なみの純化路線をたどっているブクマ数が気になる!

家系の尤度

家系の「尤度(ゆうど、likelihood)」というお話です。

まずは「尤度」について説明しようと思って色々書いたり消したりしていたのですがとりあえずこっち見てもらったほうが速いのかもと思います。http://www.genstat.net/statistics.html というか遺伝関連もそっち見てもらったほうが速いかもしれませんが・・・

さて、そういうわけなので、われわれは今、何らかの観察データがある元で、組換え価やら何やらのパラメータ推定をして最終的に遺伝的マッピングをするというランダー・グリーン・アルゴリズムに辿り着こうと努力していますので、ここでお話しているのは尤度に関してのことであります。めんどくさければ尤度という言葉は頭のなかで「確率」に置き換えても、実践上はそんなに問題がないような、いや、あるそうです。頑張りましょう。

ある人の遺伝型尤度をP(G)と書きます。Lかlで書かないといけないような気もするがあまりそうやって書いてる人はいないような。通常、何も他に情報がない場合、これはHardy-Weinberg平衡というものを仮定して得ます。例えばこんな感じで。ABO血液型について、Aの頻度をpA、BをpB、OをpOとすると

P(G=AA) = p_A^2
P(G=AB) = 2 p_A p_B
P(G=AO) = 2 p_A p_O
P(G=BB) = p_B^2
P(G=BO) = 2 p_B p_O
P(G=OO) = p_O^2

次に、表現型尤度はP(Y)です。表現型というのは、一般に文字通り表に出ているデータを意味しますので、これが基本的な観察データになります。例えばy=1なら「癌である」y=0なら「癌ではない」とします。

最後に浸透度のモデルP(Y|G)を思い出しましょう。例えば血液型についていくつか例を挙げると、

P(Y=A|G=AA) = 1.0
P(Y=A|G=AO) = 1.0
P(Y=A|G=OO) = 0.0

これは、血液型が優性遺伝形式をとっていることを示しています。浸透度を使えば、様々な遺伝形式を表せることがわかります。

ここで個人の観察の尤度P(Y)は、基本的な条件付き確率の式変形からP(Y)=P(Y|G)P(G)というふうに浸透度と遺伝型尤度の積に分解することができ、

P(Y) = \sum_{g \in G} P(Y|g)P(g)

と書くことができます。Gというのは、この人に関して可能なデータの組み合わせのことで、前回記事から大体イメージつかめると思います。gはその組み合わせの中から一つ取り出したものです。ここまでわかっているP(G)とP(Y|G)の記述の仕方を用いて、P(Y)が表せることがわかったと思います。

次にこの尤度を、個人のものとしてではなく家系、つまり人の集まりにおいて考えます。

通常このような遺伝解析で用いるような病気という表現型においては、互いに独立であるとすることができます*1統計学的に独立であるということは、同時確率をそれぞれの確率の積で表すことができるということです。なので、ある家系の尤度は

L = \prod_i P(Y_i) =\sum_{g_1 \in G_1} \sum_{g_2 \in G_2} \cdots \sum_{g_m \in G_m} \prod_i P(Y_i|g_i)P(g_i)

として表せます。全ての可能な遺伝型についての全ての組み合わせを挙げています。

これが家系の全確率としての尤度です。

親データが存在する場合

次に、その個体に親データがある場合には、メンデルの法則にもとづき、子の遺伝子型は親の遺伝子型によって影響されます。単純に言えば、父親が血液型AA、母親がBBだったとしたら、OOの子供は生まれません*2P(G=OO|G_p=AA,G_m=BB)=0ということです。前段でのP(G=OO)とは異なった値をとっており、つまり、尤度が親のデータによって条件付けされています。一般に

P(G_o | G_p, G_m)

と書きます。oというのはoffspringのoです。pが父親、mが母親。例えば、AOの父親とBOの母親から生まれる子供は

P(G_o=AO|G_p=AO, G_m=BO) = 0.25
P(G_o=BO|G_p=AO, G_m=BO) = 0.25
P(G_o=AB|G_p=AO, G_m=BO) = 0.25
P(G_o=OO|G_p=AO, G_m=BO) = 0.25

となります。これはメンデルの分離の法則そのままです。

これを導入すると、先ほどの全家系の尤度は次のように書き直せます。ここで、観察範囲のデータ内に父親か母親がいるような個体をnon-founder、父親も母親もいないものをfounderと呼ぶことにします。

L = \prod P(Y) =\sum_{g_1 \in G_1} \sum_{g_2 \in G_2} \cdots \sum_{g_m \in G_m} \prod P(Y_i|g_i) \prod_{founder} P(g_i) \prod_{non founder} P(g_o|g_p, g_m)


以上の考え方はそのまま、遺伝型ベクトルG= {g1, ... gn}について適用できます。するとここに組換え価を入れることができるようになり、遺伝的マッピングに応用出来るようになります。

終わりに

間違っていないか不安ですが、誰か読んでくれてるんだろうか・・・一応お一方は読んでくださっているようだ!

*1:「病気の表現型が、家系内で独立でない」というのは、父親が病気になったら母親や子供も病気になるという干渉を意味していて、つまり結核のような感染症では明らかに独立ではありません。が、感染症以外のほとんどの病気に関しては独立と考えることができます

*2:突然変異が起きた場合を除く