ランダー・グリーン・アルゴリズム(2)
ランダー・グリーン・アルゴリズムの紹介、第二回です。いつになったら辿り着くのやら!
メンデルの法則
まず第一に、これはメンデルの法則にもとづくモデルです。メンデルの優性、分離、独立の法則を思い浮かべましょう。
優性の法則 law of dominance
優性の法則は、ある遺伝子座上にA、aのアレルがあり、Aが優性ならば、AAとAaはどちらもAの表現型を表し、aaだけがaの表現型を表し、これらの遺伝型が1:2:1の比率で生まれるので、優性形質Aが3:1の比率で生まれる。というふうなものですが、これはさすがにプリミティブすぎて現在の遺伝学には適用不可能です。
ここは、メンデルの優性の法則を、浸透度penetranceの定義で置き換えます。これは、ある遺伝型のもとで、表現型が一定の確率で発生するとするものです。遺伝型G、表現型Yについて、P(Y|G)を浸透度と呼びます。P(Y|G=AA)=1、P(Y|G=Aa)=1、P(Y|G=aa)=0とすれば先ほどの優性遺伝を表します。このように浸透度は、メンデルの優性の法則を包含する概念です。
日本では三つの法則として習ったと思うのですが、今手元の欧米の教科書は"Mendel's Two Laws"と言ってこの優性の法則は挙げられていません。
分離の法則 law of segregation(第一法則)
分離の法則は、親が同じ遺伝子座上に祖父由来A、祖母由来aの二つのタイプのアレルをそれぞれの常染色体に持っている時、子にAが伝達される確率とaが伝達される確率は等しい(p=0.5)とするものです。これはまあいいですね。遺伝統計学理論のほとんどは、この確率0.5を付与のものとしています。現在でも行われるTransmission Disequilibrium Testという遺伝的関連解析法は、ほとんどこれだけを用いて解析を構築しています。
独立の法則 law of independent segregation(第二法則)
独立の法則は、別々の遺伝子座A、Bがあり、そのそれぞれにアレルA、aと、B、bがあるとき、その組み合わせ、AB、Ab、aB、abが子に伝達される確率は等しい(p=0.25)するものです。これは分離の法則のもとで、すべての遺伝子座が互いに独立だと考えるなら正しいと思われます。
これが成立しない場合があります。つまり遺伝子座間は必ずしも統計的独立ではなかったのです。この、独立の法則の例外は、ベイトソンにより1905年、モルガンにより1911年に報告されました。これは、二つの遺伝子座が非常に近くにある場合に起こります。その時、同じ染色体上の二つの遺伝子座は、前回の減数分裂の図を見るとわかると思いますが一緒になって伝達されます。つまり、ABとabしか伝達されず(それぞれp=0.5)、AbやaBとして伝達される可能性がほとんどなくなります(いずれもp=0)。右図の右矢印のような感じです。このような状況を完全連鎖complete linkと言います。
ところが、ここに前回紹介した乗換え現象が起こるため、同じ染色体上だけどやや遠くにある遺伝子座間ではその間で乗換えが起こり、AbやaBとして伝達されることも起きるのです。これが上図の下側にしめされています。しかし、毎回必ず乗換えが起こるばかりではないので、この場合の伝達確率は、0~0.5の値をとることなるでしょう。すなわち、結論としてはAB、Ab、aB、abの伝達確率が0.25からずれることになります。統計屋さんなら感覚的にわかると思いますが、ここが解析のキモです。0.25からずれている場合、完全ではないものの「連鎖」と呼びます。モルガンはこの連鎖の法則を「遺伝の第三法則」とも呼びました。
遺伝統計学的には、ABが乗換えcross overの影響でAbに変わった場合を組換えrecombinationと呼ぶようにしているようです。すると、A遺伝子座とB遺伝子座の間で二回乗り換えが起こると、並びはABのままなので組換えは起こっていないことになります。乗換えは、生物学的現象なので、遺伝子座間で2回以上起きることができますが、組換えは遺伝子座間で起きたか起きないかのバイナリの現象を表します。この定義は後の組換え価の定義に影響してきます。
「近くなら組換えは起こりづらい」「遠くなら組換えは起こりやすい」というのが遺伝的マッピングのファンダメンタルな考えです。これをもとに、全ての理論が組み立てられています。
後のために用語をひとつ導入しますと、同じ染色体上のアレルの並びをハプロタイプと言います。アレルと同様、ハプロタイプも、人は二個ずつ持ちます。分離の法則がアレルについての法則であるのに対し、独立の法則はハプロタイプについての法則であると考えることもできます。
組み換え価recombination rate
独立の法則において現れた「連鎖」と「組換え」の現象についてもう少し話を進めます。
親が祖父由来AB、祖母由来abを持っていたのに、連鎖が不完全であったため、AbやaBと組み変わって伝達されるようになる可能性を組み換え価として表します。ある個体のある染色体上の遺伝子座iにおいて、それが祖父由来なら0、祖母由来なら1と記述し、Siで表すとすると、二つの遺伝子座間の組み換え価は
と定義できます。前述したように、これは二遺伝子座間が近いなら小さく、遠いなら大きいと考えられます。
このθは最大値が0.5です。なぜなら生物学的に、非常に近傍にあって乗り換えが起こらない(θ=0)から、非常に遠くにあったりべつべつの染色体上にあってアレルの組み合わせがほぼランダムになる(θ=0.5)までの値しか取り得ないからです。従ってこれは確率の要件を満たさず、recombination rateと呼ばれ、「組換え価」の訳語ならよいのですが、「組換え確率」と呼んでしまうとやや問題があります(これは1以上を取りうるのに罹患率とか発生率と訳されてしまったincidence rateの訳語問題と同じです)。
ここで、もう一つの遺伝子座kを考え、
であったとしましょう。組換え価の大きさが遺伝子座間の距離を反映するとするなら、これは染色体上の遺伝子座の位置の並びがi, j, kであることを示唆するかもしれません。もちろん互いに別方向の可能性もありますが、ここは近傍の場合は組換え価に加法性があるので、
であるなら、少なくともi, j, kもしくはk, j, iの並びである蓋然性が高いです。これが最も初期に提唱された遺伝的マッピングの方法です。このようにして、最初にゲノム上の遺伝子の並びについての考察を行ったのはスターツバントで、1913年のことだそうです*1 。
マップ関数
すぐその後、ホールデンがこの組換え価を遺伝子座間の距離の関数と捉え、遺伝的距離を定義しました*2 。ホールデンのマップ関数と呼ばれます。
ここで、乗換えは完全にランダムにおけると仮定しましょう。ゲノム上どの場所でも同様に起こるというものです。また、その確率は距離に比例して大きくなると考えます*3。乗換えの起こる回数は整数値で、ほとんど起こらないのでポアソン分布で表せると考えられます。このポアソン分布のパラメータ(平均値かつ分散)をxで書くなら、乗換えがc回起こる確率は
です。組換えという観点からすると、前述したように、乗換え回数が1回でも3回でも5回でも現象としては同じ物を観察します。従って、組換え価は
sinhのテイラー展開を利用してます。この式中のxを遺伝的距離と呼び、これが組換え価を用いて次のように求めることができることがわかります。
遺伝的距離の単位としては、100回の減数分裂で1回の組換えが起こるような距離を1cM(モルガン)と呼びました。この単位は現在でも組換え価の表現において用いられており、現在では1cMはだいたい1Mbp、つまり物理的な100万塩基対に対応すると推定されています。ヒトゲノム長が30億塩基なので、全ゲノムの遺伝的長さは30M、すなわち1回の減数分裂で全ゲノムに30の乗り換えが起こっている計算です。
先述のスターツバント論文から教科書に引用されている数値を示すと、線虫の遺伝子y、w、miにおいて、
だそうなので、遺伝的距離は、y, w間が1.3cM、w, mi間が52.2cM、y, mi間が55.8cMと計算出来ます。それで、y, w, miの順にだと言う彼の考察はあてはまります。ちなみに組換え価の加法性は近傍でしか成立しづらいと述べており、ここでもなんだか足し算が合わないように思われますが、これはかなり遠くにある遺伝子座間は二回以上の乗換えを経ている可能性があるためです。
さきほど言ったように組換え価は実際には距離の単純な関数ではなく、例えば女性の組換え価は男性より高いので、同じ遺伝子座間でも女性の方が遺伝的距離が長いという結果を得ます。改良されたマップ関数も多数存在し、コサンビのマップ関数が最も有名です。次のようなものです。
これで先程の遺伝的距離を計算し直すと、1.3cM、38.9cM、41.1cMとなります。
ここで組換え価は、動物においては実験的に、二項分布パラメータとして最尤法で推定することができます。ヒトの場合はそのように単純にはわかりません。
*1:Sturtevent AH. J Exp Zool. 1913 さすがに読んでない
*3:後述する遺伝的距離と物理的距離にはややズレがありますが、このズレの原因はこのような仮定の現実とのズレにあります