ランダー・グリーン・アルゴリズム(6)

ついにランダー・グリーン・アルゴリズムの説明に入るぞ!

全般的なアイデア

1980年代後半に至るまでの間に、エルストン・スチュワート・アルゴリズムが開発され、それを実装したプログラムが無料で配布されるようになり、数々の連鎖解析が主に欧米で行われました。このアルゴリズムの基本的なアイデアは、下に示すように、与えられた家系において、それぞれの人においてありうる遺伝型の組み合わせをあげていき、人について掛け合わせていくというものです。これをパラメータ、具体的には組み換え価のもとに表し、この観察データを与える可能性が最も高いパラメータをもって「最尤推定量」とします。

それぞれの個体において、可能な遺伝的座位の組み合わせが、各座位において可能な状態の、座位数乗になります。

このアルゴリズムが人数について線形、座位数について指数的であったため、1980年代にDNA研究が爆発的に進展し(PCRの発見がこの時期です)、たくさんの遺伝的座位をタイピングできるようになり、また多点解析の理論が成熟したのに、それを実践レベルの遺伝統計解析がうまく活かせていないところがあったようです。

そこで登場したのがランダー・グリーン・アルゴリズムでした。発想の転換をしたのです。各遺伝子座においてありうる遺伝的アレルの流れを挙げ、それを座位数分掛け合わせて行ったのです。ごく単純に図で表してみると次のようなものです。

正面からみていたのを横からみてみたような、そんな感じ。超発想の転換。すげえ、と僕は思いました。

各遺伝的座位における状態は、遺伝型そのものではなくて、両親の各親のどちらの染色体(祖父由良、祖母由来)を、もらったか、とします(観察されたデータではなく1ステップ置くようなやりかたで、これを隠れ変数hidden variableと言います)。この状態が染色体上で変化するのは、乗り換えが起こった時です。すなわち、近傍の遺伝的座位との間において、組み換え価によって状態が変化する確率を記述できます。とくに各遺伝子座間のこの確率が独立だとし(ホールデンのマップ関数のように)、遺伝的座位を左から右に(一般的には染色体の短腕側から長腕側に)見ていくなら、この確率過程はマルコフ過程と呼ばれるようになり、後述する隠れマルコフモデルを適用できます。

計算量について考えてみますと、各座位において、人数乗分の状態が発生し(後述します)、それを座位数分掛け合わせていくことになります。

これは計算量が人数について指数的でしたが、座位数について線形なので、多数の遺伝的マーカーを用いたいと考えていた当時の遺伝研究者のニーズにバッチリ符号したのです。

次回以降もっと細かく見ます。