雑感

いつもどおりの「アマチュアの単なる感想の垂れ流し」ですので。その点ご留意ください。

結婚制度の、今話題になってるらしい記事の話です。

http://d.hatena.ne.jp/Chikirin/20130514
http://kirik.tea-nifty.com/diary/2013/05/post-a02b.html

結婚制度は崩壊させたほうがいいのかどうかってことですが、つうか単に文中にある、なぜかブクマが8件しかない番長の記事リンクを紹介したいだけです。

この、結婚制度の話をするときはどうしてもフランスの話が出てきますかね。自由そうだし、女の人にはフランスって言うだけでそれいいかも、ってなる人が、まあ一定数いますしね。

フランスでの結婚式

わたしはフランスに住んでいるといってもそんなに友達はいませんので、フランス人の結婚式に出席したことはないんですけど、話に聞くところによるとその手順は

  • 市役所で、市長本人が参加する小規模な結婚式を挙げ、その目前でお役所の書類に結婚の署名をする(パリだと市長ではなくて区長だったかな?)

フランスの街々というのは、その街の市役所そのものが建築後数百年の歴史に登場する建物だということがあるので、歴史的建造物好きが高じてフランス留学に至った僕としては見逃せないわけですが、そういった市役所の見どころの部屋でちょうど結婚式が行われていて、立入禁止状態になってたりすることもありました。でもそこから素敵な格好をした花嫁・花婿が出てくるわけだからまあそれもアリかなって感じですかね。

  • その後、キリスト教徒の場合は、教会に行って神父さんの前で結婚の誓約をする

フランスの教会はわりとフリーダムで、ミサ中ですら入ることは可能なことがあるので、結婚式も扉付近で見ることはできたことがあります。ええなー。あれ。教会そのものが、たいてい700年以上の歴史あるからなー(そこにしかこだわらない)。

で、結婚式の通例として、式場間を車で移動する際、お花の飾り物をつけた車に乗って、クラクションを鳴らしまくりながら通り過ぎる、道ですれ違うなんの関係もない車も、クラクションを鳴らし返して祝福する、ってことをやることになってます。フランスでものすごいクラクションの鳴らし合いを見たとき、交通上のケンカをしてるってことも、まあよくありますが、もしかするとそれは結婚式の祝福を行なっている幸せな光景なのかもしれません。僕もやってみたぜ。ニコニコして手を振ってくれたぜ。実はパリではあまり見ません。自分は一回も見たことないかも。郊外の街で見た風景です。

はっきりいって、カッコいいです。花嫁は、幸せそうです。

「結婚は過去の制度となりつつあり、もはや100年後に残っているとはちょっと思えないよね」、という極論がちきりんさんの記事に挙げられています。

これは、「100年後には人類の100%がリベラルになっている」という主張でしょう。

私は某サイトによるとリベラル右派ですが、しかしそれはありえないと思います。現在の、ちきりんさんが挙げたような「世界」ですら、各国ではリベラルと保守が交互に政権を担当しており、常に議論を戦わせています。特にフランスは凄惨な大革命を経験し、そんなふうな過去をゼロにして全てを革新的に執り行うというような選択は決してしない国の第一であろうとすら思います。

少なくとも欧州においてはこの質問は、「100年後にキリスト教の日曜ミサはやらなくなっているか?」とか「100年後にキリスト教式の葬式はやらなくなっているか?」とか「100年後にローマ法王はいなくなっているか?」と同じ問いだと思います。かなり100%に近い確率で、無くなっていないと思います。

フランスにおける結婚制度

結婚制度についてどう思うかというのを同僚に聞いたことはあるのですが、あこがれではあるが面倒だ、という感じで言っていました。最近パリではあまりやらなくなったので寂しいことだ、と言っていたおばちゃんもいました。ココらへんの詳しいところについては、いつもご紹介する番長ブログの優れた記事をどうぞ。

フランス番長 フランスで事実婚が多い理由、番長がお教えするぜ

フランスに実際住んでいる私からすると、フランスに関する各種記事において最も現地感覚・現地での報道に近いのはこの番長ブログであると自信を持って言い切りたい。みなさんも興味のある記事はどんどんたどって読まれるといいです。オススメです。

PACSの制定意図

番長記事以降でのフランス国内での変化というと、ご存じの方も多いと思いますが、同性婚が合法化されました(CNN.co.jp : フランスの同性婚合法化法案、成立へ 反対派は違憲主張)。国論を二分しているとはいえ、結婚したい(させたい)のかい!なんかちきりんさんの主張の方向性とは違うような気もしますね。

これは重要なところで、すでにフランスにおいて同性カップルはPACSという手段を持っているが、それでもなお「結婚」という制度を求めている、もしくは国家として同棲によるPACSという制度とは別に、結婚ということをさらに認めようとしている、というふうにそれだけ「結婚」という制度に価値を置いているということになるのではないでしょうか。

一般的には、ちきりんさんの挙げたような、結婚していない同棲カップルや同居家族に、結婚しているカップル・家族と同等な法的保護を与えるという方向性は、フランスが最初に1999年PACSとして法制化し、それがどんどん欧州各国に広がっていった、ということになっています(wikipedia:民事連帯契約)。

実はフランスでのPACSの制定には、少し裏話があります。ここにはフランス語教師(フランス人)から言われたことを書きますが、裏とりとしてはこの辺りにちらっと書いてあるかな:http://pacs-japon.com/about-pacs/archives/3

要約するとPACSは、結婚制度なんて意味が無い、結婚制度を崩壊させる、という目的でつくられたものではない。同性愛者保護運動の一環であったということです。

現在の同性婚合法化をなしとげたのはフランソワ・オランド大統領の社会党政権です。現在は下院アサンブレ・ナシオナルも社会党が多数派を取っています。つまりフランスは完全な左翼政権となっています。

1999年のPACS制定当時のフランス大統領はジャック・シラクで、中道保守ですが、首相はリオネル・ジョスパンで、社会党でした。フランスの政治は、こういう保革共存(コアビタシオン)が何回かあります。

ここでジョスパンの社会党内閣が提案したのがPACSだったのですが、実は社会党政権はこの時点では同性婚法案を出したかったのだそうです。しかし保守の猛反対で、どうにも成立はできなそうだった。保守派の考えは、「同性の結婚自体は良いが、その子供(もちろん養子)を正しく育てられるとは思わない。結婚によって形成される家族において、子供には父親と母親が必要だ。だから同性婚は容認できない」というようなものだったそうです。石原や亀井よりはまだ寛容だけど、それでもガチ保守派ですなー。

それに対する社会党政権の回答が、結婚制度としてではなくてもよいから、同性カップルに夫婦としての法的保護だけは与えてくれ(同性カップルの働いている側が亡くなったあと、働いていない側がひどい困窮に陥るのを避けさせてくれ、など)。というものでした。それがPACSの当初の狙いだったそうです。

そして、そのため、PACSには結婚とくらべてひとつ、これを背景とした制約があります。

養子を取ることができないのです。

なんじゃそれ、っていうこの制約の理由は、同性カップルに子供を持たせたくない保守派に妥協した結果なわけです。

したがってPACSはもともと同性カップルに法的保護を与えるために作られましたが、異性カップルも、こりゃいいやとどんどん利用したってわけで、その結果として現在の状態になったんだそうな。。。

社会党がやりたかったことは、今も昔も同性婚の容認であって、結婚制度の崩壊とかは(まあ別に反対もしてないでしょうが)特別意図する所であったとは思われません。1999年PACS制定から2013年同性婚合法化までが社会党の一貫した主張であったのですが、PACSの意義はなんだか完全に別の方向で取り扱われることになっているというのが現状だと思われます。

終わりに

要するに何が言いたいかというと、ちきりんさんの言っていることはあまりに一神論的主張すぎて(リベラル一辺倒すぎて)、彼女自身は日本が世界に遅れていると言いたいようなのですが、むしろその議論の仕方は現在の世界的な政治的議論の潮流としては遅れているとすら言えるではないかということです。

日本から欧州を眺めるとき、欧州は決して一枚岩のリベラルってわけではない、各国のどこにおいても保守とリベラルが議論を重ねた後に今がある、っていうことは意識しておいてもよいのではないかと思います。ちきりんさんの主張というのは極論を述べて議論を喚起したいということなのだろうとは思います。しかしちょっと読者を舐めているのではないかなと感じるところも多いです。

私自身はPACSは、その当初の思惑はどうあれ社会に広く根づいており国民に支持されていて、同様に日本で施行されればある程度の国民が支持する可能性はあるとは思います。しかし、番長ブログに挙げられているように、非キリスト教国である日本においてはもともと結婚・離婚が比較的容易なので、そこまで多大な支持が出ることはなかろうとも思います。そしてまた、結婚制度というものに象徴的意味を見出す保守派がいる限りはそう簡単に結婚制度が崩壊するとは思えません。リベラル右派である僕ですらそうです。

婚外子の割合が50%前後になってきているというのは、これが今後100%になるということを意味するとは限らないのです。50%前後で平衡すると考えることだって出来ます、ちょうど国民における保守とリベラルの割合がそうであるなら。

いずれにせよこれは、フランスでもやったように、保守とリベラルの慎重な議論の上で、国民的に納得の行く方向性として定められるべきであろう、そうでなくて「世界はこうだ!日本もこうしろ!」というのは、民主党も何回かやっていますが(二酸化炭素排出規制とか・・・)、次の選挙で国民の猛反発を食らうだけっぽいのです。

ではどこでどのように、保守とリベラルが建設的な議論を行えるのか?というのがわからないんですけども・・・フランスでは新聞や雑誌やテレビでやっているんだそうですが、かなり感情をむき出しにしてツバ吐きながら主張のやり取りをしており、それのみならずまちなかでは支持者たちが豪快なデモを繰り広げたりストしたりやりまくっていますので、なぜその最終的な結果として具体的な政策に行きつけるのかよくわからないんですが、おそらくある程度やりあったあとは「C'est la vie.(ま、いっか)」で終わらせているのだろうというのが私の今のところの見解です。日本は当然そうは行きませんので、日本人にあった、国民的議論を存分に行った上で集約できる方法というのはこれから考えていくべきところなのだろうと思うのです。国民性から言うと、アメリカでもイギリスでもなく、ドイツが近いのかもしれませんが、ドイツの国内事情については私は全くわかりません。

Nature新方針の件(2)

冒頭追記の注:まさか勘違いされてる方はいらっしゃらないとは思うのですが、これはNew England Journal、Lancet、JAMAといった疫学誌の方針変更ではなくNatureグループです。グループというと幅は広いですけど、基本的には対象は疫学研究と言うよりはより基礎に近い方のライフサイエンス研究が対象であると考えられます。つまりこれは、iPS細胞とか次世代シーケンサーとかそういった範囲の研究が対象の査読方針変更であることを今一度ご確認の上ブコメしていただくようお願いしたいと存じます。特に「疫学研究ではこれまで当然だった」ことは、下にも書いてあるように僕も当然だったと思いますしそんなことは本件にはなんも関係ありませんし、この件の意味がよくわからなくなってしまいます。念のため。

会議中ですが興味なく暇なので昨日の続き。Natureの要求するチェックリストを見てみます。面白い。時代が動くようにも感じますね。

これをGWASとかのbiostatistics系の研究や疫学研究に要求するのは普通だと思いますが、全てのライフサイエンス研究に要求するとしたら新しい気がする。

逆にライフサイエンスの研究者でない人には、これまでトップジャーナルが、ルーチンとしてはこういうことを要求していなかったことに驚く人もいるかも。フィッシャー先生にようやく顔向け出来る、みたいな。まあ個々のレビュワーにこういうことを突っ込まれることはこれまでも良くあったし、トップジャーナルになればなるほどこの辺の要求が厳しくなるというのは元々の傾向ではあったとは思いますけどね。

最近の日本人研究者のアレぶりが、これに結びついたんだったらやだなー。

統計と一般的なメソッド

1. あらかじめ決められた効果サイズを検出するために、充分な検出力を持つと保証されるサンプルサイズをどのように求めたか。

動物実験では、結果に統計学的方法が使われなかったとしても、サンプルサイズ推定についての記述をいれること。

2. サンプルや動物が解析から除外されているなら、inclusion/exclusion基準を記述すること。それは事前に決められたものか?

3. サンプルや動物の、実験グループへの割付と処理が無作為化されているなら、その方法について記述する。

動物実験では、無作為化が行われていなかったとしても、それについての記述を入れること

4. グループへの割付について、実験中と/またはアウトカムの評価において、観察者に盲検化が施されているなら、その程度について記述する。

動物実験では、盲検化が行われていなかったとしても、それについて記述する。

5. どの図についても、統計学的検定は妥当なものだと正当化できるか?

データは検定の仮定とあっているか?(例えば正規分布か?)

6. 実験の各グループにおいて分散は推定されているか?

統計学的な比較が行われたグループ間においては、分散は等しいか?

(薬品と動物実験については略、原文読んでちょ)

ヒト

11. 研究プロトコルを承認した委員会を明記する
12. 全参加者からインフォームドコンセントが得られていることを明記する
13. 患者の写真を発表するなら、発表についての同意があることを明記する
14. ClinicalTrials.gov などへの臨床試験登録番号を明記する
15. 第II相とIII相の無作為化比較試験については、CONSORT声明を参照しCONSORTチェックリストを提出すること
16. 腫瘍マーカーと予後の研究においては、REMARK報告ガイドラインも参照することを勧める

あとデータ保存についてもありますが略。

Nature新方針の件

この件が実務上問題となる人が、英語を読むのに苦労するとは思えないので意味があるかどうかわかりませんが、一応まとめよう。自分のために。

Announcement: Reducing our irreproducibility : Nature News & Comment

  • 来月(5月)から、Natureと関連雑誌は生命科学論文の一貫性と質を改善するための編集基準を導入する。
  • 論文著者に技術的・統計的情報の開示を求め、レフェリーには研究の再現性という面で重要な点を検討するよう促すためのチェックリストを用意した。(http://www.nature.com/authors/policies/checklist.pdf
  • また、より詳細な統計についての記述を要求し、論文によってはエディターの決定やレフェリーの提案に従って統計学者をコンサルタントとして委任する。
  • メソッドセクションについての文字数制限を廃止する。
  • グラフや図があるなら、それを描くために直接使われた、アクセスが容易なデータの表を提供するよう促す。
  • これまでに引き続き、詳細なメソッドと薬品についての記述をProtocol Exchangeに載せるよう促す。

それぞれについての細かい説明とか、今後についての大局的な戦略とかも書いてありますので興味ある人は原文をば。

ランダー・グリーン・アルゴリズム(7)

隠れマルコフモデル

隠れマルコフモデルについて、細かいところ(本質だけど)はぶっとばして、実装上のポイントだけ述べます。

隠れマルコフモデルは、時系列のように、状態が徐々に変化していくようなもの、確率過程について、実際には観察されないデータ「隠れ変数hidden variable」を仮定することで推定を回しやすくしたものです(あってる?)。

「マルコフ」過程であるとは、ある状態が、一つ前の状態によって完全に説明され、過去の振る舞いは関係ないようなものです。

具体的にはこのようなモデルです。

  1. 隠れ変数の初期状態を決める。隠れ変数は観察されたデータでないのだからいろいろな可能性があり、それは確率的に表される。
  2. ある状態から別の状態へ変化する時の確率を与える。これは移行確率transition probabilityと呼ばれる。
  3. それぞれの過程において、隠れ変数によって表されている状態から、どのような観察データが得られるかの確率を与える。遷移確率emission probabilityと呼ぶ。

これで、適切に現実のデータをモデル化し、パラメータ推定をします。推定法として、ビタビ・アルゴリズム、バウム・ウェルチアルゴリズムなどを用います。ランダー・グリーン・アルゴリズムが用いているのはバウム・ウェルチです。

このモデルが、遺伝家系データの解析にバッチリ合うと言うんです。

よくわからない方もいるでしょうが、いいんです!実際のモデルを見てから考えましょう。

ランダー・グリーン・アルゴリズム

さて本論です。通常とは逆の順序で説明したいと思います。

遺伝的データの隠れマルコフモデルを用いた表現

まず遺伝的座位を染色体上に並べて思い浮かべます。

各座位における観察データは遺伝型です。これは実験的に得られます。

次に隠れ変数は、そのどちらが父親、母親のどちらから来たかということにします。以前の回でわかるように、これは遺伝型の相ですから、それは必ずしも一つに求まらないものであることが分かっているはずです。だから隠れ変数にします。

次に、隠れ変数である遺伝型の相から観察データである遺伝型への間を遷移確率で記述しなくてはいけません。遺伝型の相は、継承inheritanceされるものということからIとし、観察データの遺伝型をGとすると、遷移確率は、座位MiにおいてP(G_i|I_i)です。ランダー・グリーン・アルゴリズムの場合、ある状態I_iについて、観察データG_iは1対1で与えます。より新しいアルゴリズムの場合、観察データに実験エラーがありうることを踏まえてそうでない条件も考慮されています(逆に言えば、ランダー・グリーン・アルゴリズムにおいては、実験エラーの存在は許されません)。

つぎに座位から座位への状態の変化、移行確率ですが、これが乗換え現象を表したもので、組換え価によって記述できるとすでに述べました。この移行確率はP(I_i | I_{i-1})で、これについて、θiを、座位M_iM_{i+1}のあいだの組換え価とします。非常に単純に、

P(I_i = 0|I_{i-1} = 0) = 1-\theta
P(I_i = 1|I_{i-1} = 0) = \theta
P(I_i = 0|I_{i-1} = 1) = \theta
P(I_i = 1|I_{i-1} = 1) = 1-\theta

であることがわかろうかと思います。

最後に初期状態を与えますが、原則として家系データにおいて、遺伝型が与えられたもとでのありうる遺伝的アレルの流れは事前情報なしではなにもきめられないので、全て同等に確からしい、つまり均等分布uniform distributionに沿うとするのが妥当でしょう。

さてこれをまとめるとこんなんなりました。

 L = \sum_{I_1} \cdots \sum_{I_m} P(I_1) \prod_{i=1}^m P(I_i | I_{i-1}) \prod_{i=1}^m P(G_i|I_i)

・・・という式を書くよりも、下の図を見たほうがわかります。

下側の◯は、染色体上において親の祖父由来か祖母由来かを表す隠れ変数です。上がわの□は、実験で得られる観察データで、これが仮想上の隠れ変数のもとにどのように与えられうるかが遷移確率によって記述されます。そして、◯の横側の流れは染色体上の、祖父由来か祖母由来かの変遷を表していて、組換え価によって記述される移行確率でその振る舞いが表される、というモデルです。

さて、ここまでの説明だと、一人分の染色体においてのモデルでしかありません。家系として記述するにはどうすればよいと思いますか?

ここにエリック・ランダーの、もうひとつのすげーアイデアが導入されます。

イレッサ訴訟

※4月4日注記 本文中事実関係に齟齬があったみたいです。コメント欄参照下さい。ゴメンナサイ。

ようやく終わりかけているようです。

http://headlines.yahoo.co.jp/hl?a=20130402-00000077-mai-soci

副作用としての間質性肺炎に罹患された患者様のご健康をお祈りし、また亡くなられた患者様におかれましてはまことにお悔やみ申し上げます。

以前も書いた*1ことがありますが、この件について、今後このような新薬副作用の大発生を起こさないようにするための私の考える提言をまた挙げたいと思います。一個追加したけど。この日記も以前より多少は注目が上がっているかもしれないし。

  • 厚労省に承認申請をするような薬剤については、国内外での臨床試験の事前登録(http://www.umin.ac.jp/ctr/index-j.htm)を義務付けすべき。
    • ただ、海外のよく知られたレジストリに登録されていればショートカットは可とする、この際厚労省における審査を要するようにする。
  • 厚労省の、臨床試験統計学的な解釈能力の向上。統計学的解析を行える人材の充実
  • 新薬処方における制限、専門医以外の処方禁止
  • 新薬処方時の総処方数制限。市販後追跡調査をこれまでより厳格化し、一定の処方数を超えたらその時点での安全性を解析、(1) 今後自由に処方して良い (2) 次の段階の処方数まで増やしても良い (3) 今の数でもう少し追跡 (4) 処方禁止、市場から引き上げ などの判断を下す。
  • 医学部、研修医レベルでの、疫学・統計学教育の強化。

一つ目については、今回の原告弁護団の主な主張であった、データ隠蔽を起こさせなくするための手段です。これについては、厚労科研費を使った臨床研究についてはすでに義務付けが開始しているみたいです。しかし、製薬会社スポンサードの臨床研究が一番の問題なわけで、これについて義務付けか、結果として義務付けられているのと同様の状態にしないと意味ないかなとも思います。ここらへんはどうなっているだろう。

二つ目についてですが、当時イレッサについては、同じ臨床試験の結果を見て、日本は承認し、アメリカはpendingとしてました。これは多分、臨床試験統計学的な解釈能力の違いでしょう。最近のwhat_a_dudeさんやtakehiko-i-hayashiさんのエントリを見ても、日本の官庁に、統計学的解析を行える/評価できる能力を持った十分な数の人材がいないようです。これらの方々を見れば、十分な能力を持つ人そのものがいらっしゃることはわかります。ならば人数が足りないのでしょう。それなら統計ができる人材を増やすべきです。・・・しかしそうすると、統計なしで生きてきた既存の高級官僚の方のレゾンデートルが失われちゃうのかもしれませんね。だとすると内部改革は難しそうですから、ジャーナリストが指摘すべきでしょう。そうすると統計なしで生きてきた既存のジャーナリストのレゾンデートルが・・・(以下略)

三つ目と四つめは臨床医レベルについての提言です。特に処方数制限と段階的解除というアイデアを私は好みます。それにかぎらず日本の医療システムは、もうちょっと国単位で全体としてのデータを収集し、コントロールすべきと思っています。今の日本のシステムはヘッドなしの100の遊撃隊を集めたような感じで、ナポレオンから羊を率いても撃破できるとか言われそうな感じがします。

五つ目です。こんな提言が効果を発揮するには何十年もかかるかもしれません。しかし今このアクションを起こすべきだと僕は思ってはいるのです。医者が統計をわかるべきです。たとえ厚労省が、十分な人材がいないために結論を誤っても、医者がそれを統計学的見地から見破れるべきです。日本とアメリカの当局の判断が違う、それはなぜかとすぐに統計的に判断する。医者は、それができて相応の立場と給料をもらってるはずです*2

そもそも個々の薬剤の承認は厚労省がやっていますが、その後どのような病態にどの薬を処方するかは、適応疾患との兼ね合いをいろいろにゴニョゴニョしながら、日本の医者は割りと自由にやっている現状です。

一つの奇策として、医者が研究するのに、分子生物学ではなく臨床研究の方に大量に送り込むようインセンティブを何かつけるというのもあると思います。医学部出身で研究をやる人のほとんどは、数年で辞めて臨床に戻ります。その際、研究していた時の考え方を身につけて臨床に帰るのも重要だとの考えで、僕自身は、キャリアの多様性が極めて少ない日本においてこうやって医者のほとんどが現場以外の経験を身に着けているというのは多分日本の臨床レベル向上に大きく役だっていると思うのですが、今は統計が重要みたいですから統計を勉強しましょうよ。するとアカデミックな考え方を身につけるのみならず、統計学的な考え方まで身につけられて超いいです。分子生物学は、生物学出身のポスドクの方に任せたらどうでしょうか。彼らのほうがプロなのは明らかだし、就職難もあるみたいだし。欧米のほとんどはそういう感じになってきていると聞きますが。

*1:http://d.hatena.ne.jp/aggren0x/20110115/1295051615

*2:逆に、医者が採血したり点滴入れたり経鼻胃管入れ替えしたりするのはやめたほうがいいと思う。私のそれを見たアメリカの医師は「お前らはスレイブだな!Huh!」って笑ってたさ

ランダー・グリーン・アルゴリズム(6)

ついにランダー・グリーン・アルゴリズムの説明に入るぞ!

全般的なアイデア

1980年代後半に至るまでの間に、エルストン・スチュワート・アルゴリズムが開発され、それを実装したプログラムが無料で配布されるようになり、数々の連鎖解析が主に欧米で行われました。このアルゴリズムの基本的なアイデアは、下に示すように、与えられた家系において、それぞれの人においてありうる遺伝型の組み合わせをあげていき、人について掛け合わせていくというものです。これをパラメータ、具体的には組み換え価のもとに表し、この観察データを与える可能性が最も高いパラメータをもって「最尤推定量」とします。

それぞれの個体において、可能な遺伝的座位の組み合わせが、各座位において可能な状態の、座位数乗になります。

このアルゴリズムが人数について線形、座位数について指数的であったため、1980年代にDNA研究が爆発的に進展し(PCRの発見がこの時期です)、たくさんの遺伝的座位をタイピングできるようになり、また多点解析の理論が成熟したのに、それを実践レベルの遺伝統計解析がうまく活かせていないところがあったようです。

そこで登場したのがランダー・グリーン・アルゴリズムでした。発想の転換をしたのです。各遺伝子座においてありうる遺伝的アレルの流れを挙げ、それを座位数分掛け合わせて行ったのです。ごく単純に図で表してみると次のようなものです。

正面からみていたのを横からみてみたような、そんな感じ。超発想の転換。すげえ、と僕は思いました。

各遺伝的座位における状態は、遺伝型そのものではなくて、両親の各親のどちらの染色体(祖父由良、祖母由来)を、もらったか、とします(観察されたデータではなく1ステップ置くようなやりかたで、これを隠れ変数hidden variableと言います)。この状態が染色体上で変化するのは、乗り換えが起こった時です。すなわち、近傍の遺伝的座位との間において、組み換え価によって状態が変化する確率を記述できます。とくに各遺伝子座間のこの確率が独立だとし(ホールデンのマップ関数のように)、遺伝的座位を左から右に(一般的には染色体の短腕側から長腕側に)見ていくなら、この確率過程はマルコフ過程と呼ばれるようになり、後述する隠れマルコフモデルを適用できます。

計算量について考えてみますと、各座位において、人数乗分の状態が発生し(後述します)、それを座位数分掛け合わせていくことになります。

これは計算量が人数について指数的でしたが、座位数について線形なので、多数の遺伝的マーカーを用いたいと考えていた当時の遺伝研究者のニーズにバッチリ符号したのです。

次回以降もっと細かく見ます。

ランダー・グリーン・アルゴリズム(5)

こういうのはですね、途中で間をあけると飽きて終わりになっちゃうのでですね、書ききってしまおうかと。

エルストン・スチュワート・アルゴリズム

ランダー・グリーン・アルゴリズムの前段階である、エルストン・スチュワート・アルゴリズム*1について説明します。

前回、全家系の尤度を得ました。

L = \prod P(Y) =\sum_{g_1 \in G_1} \sum_{g_2 \in G_2} \cdots \sum_{g_m \in G_m} \prod P(Y_i|g_i) \prod_{founder} P(g_i) \prod_{non founder} P(g_o|g_p, g_m)

しかしこれは、各個人すべての可能な遺伝型について全ての組み合わせを見ており、大変なだけではなく無駄があります。これを、ループのない(近親婚のない)家系においては情報量を失わずに計算量を大幅に減らすのがエルストン・スチュワート・アルゴリズムです。peeling algorithmとも呼ばれます。

この図の家系で考えてみます。

この図について、前回ご紹介した尤度を用いると次のような計算になります。

L=\sum_{g_1 \in G_1} \sum_{g_2 \in G_2} \sum_{g_3 \in G_3} \sum_{g_4 \in G_4} \sum_{g_5 \in G_5} \sum_{g_6 \in G_6} \sum_{g_7 \in G_7} \sum_{g_8 \in G_8} \sum_{g_9 \in G_9} \sum_{g_{10} \in G_{10}} P(Y_1|g_1)\times
P(g_1)P(Y_2|g_2)P(g_2)P(Y_3|g_3)P(g_3)P(Y_4|g_4)P(g_4|g_1,g_2)P(Y_5|g_5)P(g_5|g_1,g_2)\times
P(Y_6|g_6)P(g_6)P(Y_7|g_7)|P(g_7|g_3,g_4)P(Y_8|g_8)P(g_8|g_5,g_6)P(Y_9|g_9)P(g_9|g_5,g_6)\times
P(Y_{10}|g_{10})P(g_{10}|g_5,g_6)

総当りしてるわけですね。大学入試の確率の問題を力技で解く要領です。式の改行は私の環境に合わせてやりました。

ここで、和の数字の順番から見て、「上から下に向かって尤度を書き下している」ことにご注意下さい。図でも矢印でこれを表現しました。本質的にはこの点だけ把握していれば十分。

もうちょいうまくやれないものか、ということをやるのがエルストン・スチュワート・アルゴリズムです。

まず核家族を考えます。次の図のように、家系を核家族に分解します。

核家族では、親と子の二世代しかいません。

ここで、核家族間をつなぐ個体linking individualに着目します。なぜなら条件分岐が、これらつなぐ個体に関して絞れる可能性が高いからです。このサンプルについて遺伝型を固定し、それを親とする核家族での尤度を検討します。そしてこれを、家系図の下から数え上げます。

ここでは核家族NF2について、つなぐ個体4の、特定の遺伝型G4の条件下での尤度を見ましょう。すでに見たように、子の遺伝型は親の遺伝型のもとで周辺分布をとるので

P(Y_3, Y_7|G_4) = \sum_{g_3 \in G_3} \sum_{g_7 \in G_7} P(Y_3|g_3) P(Y_7|g_7) P(g_3) P(g_7|g_3, G_4)

となります。同様に核家族NF3では

P(Y_6, Y_8, Y_9, Y_{10}|G_5) = \sum_{g_6 \in G_6} \sum_{g_8 \in G_8} \sum_{g_9 \in G_9} \sum_{g_{10} in G_{10}} P(Y_6|g_6) \times
P(Y_8|g_8) P(Y_9|g_9) P(Y_{10}|g_{10}) P(g_6) P(g_8|G_5, g_6) P(g_9|G_5, g_6) P(g_{10}|G_5, g_6)

この二つをまとめます。今度はそのさらに親である個体1、個体2の条件下で

P(Y_3, \ldots, Y_{10}|G_1, G_2) = ( \sum_{g_4 \in G_4} P(Y_3, Y_7|g_4) P(Y_4|g_4) P(g_4|G_1,G_2) ) \times
( \sum_{g_5 \in G_5} P(Y_6, Y_8, Y_9, Y_{10}|g_5) P(Y_5|g_5) P(g_5|G_1,G_2) )

最後にこれを折り畳みます。

P(Y_1,\ldots,Y_10) = \sum_{g_1 \in G_1} \sum_{g_2 \in G_2} P(Y_1|g_1) P(Y_2|g_2) P(Y_3, \ldots, Y_{10}|g_1, g_2) P(g_1) P(g_2)

うん、綺麗になりました!

開発者の一人ロバート・エルストンは、発表当初、先祖から子孫に受け継がれていくという遺伝因子の性質から考えると、家系を下から畳み込むという方法で大丈夫なのかという懸念が表明されたが、すぐに情報量のロスがないことが確かめられたと述懐していました。

応用

ここに述べたように、エルストン・スチュワート・アルゴリズムは、遺伝学上の新しい発見というよりは、計算量を大きく軽減し、計算機負荷を軽減するものでした。これが開発された1970年代のコンピュータの性能を考えれば、今以上に重要な性質です。

このアルゴリズムを実装した、fortranで書かれたプログラムLIPEDLINKAGEが使われ、数々のメンデル遺伝性疾患の原因遺伝子座位が同定されました。ハンチントン病の原因遺伝子座位を同定し、後のHuntingtinの発見につながった歴史的な論文*2における連鎖解析は、LIPEDを用いて行われました。また、若年性乳癌のBRCA1の遺伝的座位を同定した論文*3 においては、LIPEDとLINKAGEが併用されています。

さらにLINKAGEは遺伝学データをコンピュータプログラムが扱うための標準フォーマットを提供しました。GWASの時代は完全に標準でしたし(それはplinkのおかげという面もあるが)、今、次世代シークエンサーの遺伝的多型データはvcf形式が標準であるものの、それでもなお、linkage形式に変換するプログラムがすぐに用意されるくらい、まだまだ使われています。

これら二つのソフトウェア開発に主導的な役割を果たしたロックフェラー大学名誉教授ユルグ・オットーは、今中国にいるはずです。やるなぁ中国。

計算機負荷上の限界

エルストン・スチュワート・アルゴリズムの計算量は、人数に対して線形、座位数について指数的です。


これが、分子生物学方面でのゲノム学の発展にあたって大きな困難となりました。ゲノム学が発展して、遺伝型を得られる人数も増えましたが、それ以上に爆発的に増えたのは遺伝型を取得可能な座位数だったからです。エルストン・スチュワート・アルゴリズムが発表された1971年というのは、年代から考えて、サンガーやギルバートのDNA配列決定法よりも前の時代です。これが使われ始めた頃、ヒトゲノム上の観測可能な座位数は数個とかだったらしいです!前述のハンチントン病論文で使われていたマーカー数が、全染色体数すらカバーできていない11個だったということが知られています。それが、ものの数年から十年ちょっとで数百、数千、そして万を越えていきました。

そこに登場したのがランダー・グリーン・アルゴリズムだったわけです。

ちなみに2013年現在の観測可能なヒト遺伝的多型座位数は、一塩基多型に限っても一人あたり1200万を超えています。今や個人個人の全ゲノムシークエンスを観測している時代なので、これで打ち止めでこれ以上大きく増えることはなさそうです。こっから先はエピゲノムなどを解析に統合していく方向性は現れるでしょうが、エピゲノムマーカーが数千万もあるということはなさそうに思います。