ランダー・グリーン・アルゴリズム(3)

あと3歩くらいでたどり着きそうかも・・・

遺伝型の相(フェイズ)

前々回、遺伝型について説明しました。これはヒトのもつ二つの染色体上のアレルを組み合わせたもので、遺伝的データのうち病気などといった表現型へと直接的な関連を示すもので、浸透度モデルに組み込まれていることを前回お話しています。常染色体上にある場合、ペアの染色体に優劣はなく、これは順序を入れ替えても特に意味の変わらない組み合わせです。例えば、ABO遺伝子座上のABO*AアレルとABO*Bアレルからなる、AB型という血液型とBA型という血液型・・・という違いは特にありません。

ところが、家系データにおいては意味が発生します。父親由来のアレルと母親由来のアレルに分けることができるからです。これをする意味は、これをすると家系データにおいてアレルの流れ(gene flow)がわかるということです。由来親をたどっていけばいいわけですから。さらに遺伝的マッピングにおいては、後述するように組換え価の推定に使えることが本質です(組換え価さえわかればマッピング自体は終わったようなものです)。このように父親・母親由来のアレルにそれぞれわけて扱っている場合、遺伝型(ジェノタイプ)の相(フェイズ)を見ていると言います。

ここでは次世代シークエンサーの標準ファイルフォーマットであるvcfを踏襲して、フェイズ付き遺伝型を|で区切って表現します。例えば父親由来を左に書き、母親由来を右に書いて、間を|で仕切ります。この書き方はvcfができるずっと前から、家系解析をしていた人たちの一部は使っていました。ご存じない方のために注釈しますと、フェイズなしの場合vcfは/で区切ります。例えば血液型ABの遺伝子型は、フェイズがわかっていなければA/B、わかればA|Bとします。フェイズがあるときは、順序に意味があります。

さて血液型についての次のような家系を考えましょう。

父親がAA、母親がAO、子がAOの遺伝型であるとき子のフェイズはわかるでしょうか。簡単にわかりますね。(突然変異が起こったのでなければ)母親からしかOをもらうことはできないので、子のフェイズはA|Oです。


しかしこのような家系、父親がAB、母親がAB、子もABの場合、子のフェイズはわかりません。A|BまたはB|Aであって決定できません。

また、いずれの場合も親のフェイズはわかりません。

二遺伝子座のフェイズ


同じ染色体上にある二つの遺伝子座上のアレルは、それぞれ二つの染色体ペアの片側に割り振ることができるので、二遺伝子座のアレルの組み合わせ、つまりハプロタイプがどちらの染色体上にあるか、つまりフェイズがどうであるかを考えることができます。

同じ染色体上にある二つの遺伝子座A、Bを考え、それぞれアレルがAとa、Bとbであるとします。


このような家系、父親がAaとBb、母親がAAとBBで、子がAaとBbであるようなものを考えましょう。母親のフェイズは祖父・祖母由来は不明であるものの、AB|ABであることが明らかです。父親は、AB|ab or ab|AB、またはAb|aB or aB|Abです。子を考えると、AB|ab, ab|AB, Ab|aB, aB|Abという可能性が挙げられます。突然変異が起こっていないなら、母親からの由来ハプロタイプがABしかありえないことを考えると、可能性はab|ABしか残りません。したがって子のフェイズが決定出来ました。

このとき、父親由来のハプロタイプabについて、二通りの考えができます。

  1. 父親のハプロタイプ・フェイズはAB|ab or ab|ABであったため、連鎖したハプロタイプabが伝達された。
  2. 父親のハプロタイプ・フェイズはAb|aB or aB|Abであったのだが、組換えが起こってabが伝達された。

このどちらであるかはこの情報だけでは決定はできません。しかし、AB遺伝子座間の組換え価というパラメータの元に尤度を立てることができます。これをもとに最尤法で、伝達されたハプロタイプがどれであるかとか、組換え価がどれくらいであるかを推定していきます。次回以降見て行きたいと思います。これだけではあまりに情報が少ないので推定は不定になるでしょうが、家系を大きくしたり、増やしたり、周辺の座位数を増やしたりして情報量を大きくしていくことで、推定の正確性を増すことができます。

横道にそれる

ちなみに「親のフェイズは決定できない」と書いたのは、その個体の親データがなければ今回のエントリに書いたような考察はできないということですが、親データのない個体の集団データがある場合、集団におけるハプロタイプ頻度というものに着目してEMアルゴリズム*1やGibbsサンプラー*2を用いてフェイズを取ることはでき、後者はゴールドスタンダードとしてHapMap計画におけるphased haplotype推定に使われました。