DNAを用いて、おじ・めいからでも身元確認

蝉コロンさん(いつもお世話になってます)とこの

http://d.hatena.ne.jp/semi_colon/20111215/p1

経由で

http://www.asahi.com/special/10005/TKY201105070491.html

というすこし古い記事が紹介していた、東日本大震災における身元不明の遺体について、「おじ・おば、おい・めいなど離れた親族のDNAでの特定の可能性も格段に高まる」という技術において多分使われている方法について、紹介してみたい。

書いてみたらだいぶ長くなってしまいめんどうですが、基本的には誰でも理解できる内容であると・・・思います、ぼくの日本語力に関する問題点を除けば。

Identity by Descent (IBD)

まず理解が必要な概念がIBDである。日本語では「同祖」とか訳されている。

最初にヒトゲノム多型についておさらいする*1

GGCATACACT [A] AAGTGAAAAC
GGCATACACT [G] AAGTGAAAAC

このように同じ場所のヒトゲノム配列は二組から表されていて、ヒトの持つ二本の染色体に対応している。この二本の染色体は、一本は父親から、もう一本は母親から来ている。まんなかで[]でかこったのが多型と言われる場所で、ここで例示したのは塩基*2が1つだけ入れ替わっているので一塩基多型、SNPと呼ばれるものである。多型とか変異というのは、集団内に1%以上の頻度で存在するものを多型と呼ぶことになっている。ヒトは互いに99%以上に渡ってゲノム配列が同じであるが、こういった数少ない変異の箇所において違いがあって、それがヒト個々人の遺伝的な違いに反映される。変異は、先祖代々受け継がれる多型や変異であることもあれば、放射線などによって生じた新たな変異であることもある(突然変異と呼ばれるのはこれである)。AとかGとかのことをアレルと呼んで、ここの例の場合、片方の染色体はAアレルを持ち、もう片側はGアレルを持つ、と言う。AとGを組み合わせてA/Gと表すとき、これを遺伝型あるいはジェノタイプと呼ぶ。実験によってわかるのはほとんどすべての場合において、直接的にはジェノタイプであってアレルではない。

誤解しやすい点なので、本論には全く関係ないのだがいちおう注釈しておくと、「DNA二重らせん」と呼ばれるものは、一本の染色体においてとられる構造である。したがってヒトのように二本染色体がある場合、DNA二重らせんが二本ある、ということになる。二重らせんではそれぞれ相補的な配列をとっていて、たとえばGGCATACACT [A] AAGTGAAAACと相補的になっているもう片側のDNAはGTTTTCACTT [T] AGTGTATGCCである。アレルがひっくりかえることを繰り返すと、変異の部位におけるアレルの意味がおかしくなることがある。上記A / GジェノタイプのSNPなら、相補的になるとT / Cなので間違うことはないが、A/TのSNPなら相補的になるとT/Aでこれを混合すると大変だ。そこで、ヒトゲノム計画で読んだ(ジェームス・ワトソンの)ゲノムに向き(ストランド)を与え、前向きストランドと後ろ向きストランドを定義している。一般的には、前向きストランドに沿って表すことが推奨される。

さてそういったわけで、この二本の染色体は父親と母親から来ているわけだから、父親と母親のいずれかがそれぞれの染色体を持っていることになる。ここでは以下のような場合を考えてみる。この例における多型は、複数のアレルを持つことにする。具体的には、ABCDEFGHのアレルがあるものとする。

家系図1

 父方祖父----父方祖母  母方祖父----母方祖母
   AB  |  CD      EF   |  GH
      |            |
     父-----------------------母
     AC     |      EG
           |
           子
           AE

ここで父と子のもつアレルについて考えよう。父はAとCアレルを持つ。Aは父方祖父から、Cは母方祖父からもらったものだ。また、子はAとEアレルを持つ。Eは母からもらったもので、Aは父からもらったものだが元をたどると父方祖父から受け継がれたものである。

したがって、父のAアレルと子のAアレルはおなじ父方祖父から受け継がれたものである。先からもらったものである。・・・「同祖」である。これがIBDの意味だ。この例において、父と子はAアレルに関してIBDである。

ここで、子のAアレルは父と同祖的であったが、Eアレルは同祖的ではなかった。「IBD」という用語は、実際には概念と言うより「同祖的であるアレルの数」を意味する。したがってこの場合父と子において一つのアレルが同祖的だったのだから、IBD = 1である、と書く。

親子関係におけるIBD

さらに考えを進める。ここでの例示とは違った状況をまた考える。ただしここでは、子のゲノム配列情報は得られていないとする。また、父と母は近親婚の関係にはなく、血縁的に無関係であるものとする。

家系図2

 父方祖父----父方祖母  母方祖父----母方祖母
   AB  |  CD      EF   |  GH
      |            |
     父-----------------------母
     AC     |      EG
           |
           子
           ??

さて、この場合、父と子のIBDはどうなるだろうか?もう少し具体的には、IBD=0, IBD=1, IBD=2である確率はそれぞれどれくらいだろうか。

答えは簡単だ。P(IBD = 0) = 0, P(IBD = 1) = 1, P(IBD = 2) = 0である。まずIBD=2になることはありえない。子のアレルは片方は父から、片方は母から受け継ぐのであり、その両親が無関係(もうすこし確率論的に書くなら、独立)であるなら子の母側からもらったアレルが父親において同祖的であることはないからだ。次にIBD = 0もありえない(子において生じたde novo突然変異がある場合を除く)。子の片側アレルは父親から受け継がれており、それはかならず同祖的という結果になるからだ。

この(P(IBD=0), P(IBD=1), P(IBD=2))のことを慣習的に (z_0, z_1, z_2)と書く事になっているので本稿においてもそれを踏襲する。そこで親子関係については

 (z_0, z_1, z_2) = (0,1,0)

であると書ける。これは、親子関係ならどんな多型部位においても基本的には成立する。ただしこれには、父と母が近親婚ではないという前提条件が必要である(近親婚ならIBD=2の可能性が発生する)。

兄弟(姉妹)関係におけるIBD

頭の良い人はもうわかっちゃったかもしれないので飛ばしてもらって構わない。兄弟の場合である。父親も母親も同じである兄弟すなわち全兄弟Full-sibsについて扱う。次の例を見ていただきたい。

家系図3

 父方祖父----父方祖母  母方祖父----母方祖母
   AB  |  CD      EF   |  GH
      |            |
     父-----------------------母
     AC     |       EG
         -----------
         |     |
         兄    弟
         AE    AG

この場合、兄と弟においてAアレルが同祖的であり、IBD = 1である。

さて兄弟においても、さきほどの親子の場合と同様、適当に選んだある変異部位においての各IBDの得られる確率を考えてみよう。これはメンデルの分離の法則に基づいて計算される。上の例で、父がA/C、母がE/Gで兄弟のアレルがわかっていないとする。兄がAEだったとするとき、

  • 弟がAEを伝達される確率は 1/2 x 1/2 = 1/4 : P(IBD = 2)
  • 弟がCGを伝達される確率は 1/2 x 1/2 = 1/4 : P(IBD = 0)
  • 弟がAGまたはCEである確率は 1/4 + 1/4 = 1/2 : P(IBD = 1)

これは兄のほかのすべてのアレルの組み合わせについても同じなので、兄弟関係については

 (z_0, z_1, z_2) = (0.25, 0.5, 0.25)

になることが容易にわかると思う。

半兄弟の場合

これ以降は家系図は割愛する。

半兄弟Half-sibs、父親か母親の片側が違う兄弟の場合。IBD = 2である可能性はなくなる。兄を固定すると、弟において、共通の親の兄に伝達された方のアレルが伝達されるかどうかだけでIBDが決まる。すなわち

 (z_0, z_1, z_2) = (0.5, 0.5, 0)

おじおい、おばめいの場合

これは例えば兄弟の兄と、弟の子との関係ということになる。まず兄と弟で (z_0, z_1, z_2) = (0.25, 0.5, 0.25)から出発し、

  • 兄弟でIBD = 0なら、おじおいでもIBD = 0である
  • 兄弟でIBD = 1なら、1/2の確率でその同祖的なアレルが弟の子にも伝達される。
  • 兄弟でIBD = 2なら、おじおいで必ずIBD = 1となる

したがってこれらをまとめると、おじおいにおいて

 (z_0, z_1, z_2) = (0.5, 0.5, 0)

が得られる。これが半兄弟の場合とまったく同じであることに留意してもらえれば幸いだ。

まとめ

したがってここまでからわかるように、IBDは血縁関係を引数とする関数として考えることができる。上に挙げた以外の関係性もまとめると次のようであることがわかっている*3

関係性 P(IBD = 0) P(IBD = 1) P(IBD = 2) Φ
自分自身、または一卵性双生児 0 0 1 0.5
親子 0 1 0 0.25
全兄弟 0.25 0.5 0.25 0.25
半兄弟、おじおば - 甥姪 0.5 0.5 0 0.125
Double 1st cousins* 9/16 6/16 1/16 0.125
祖父母 - 孫 0.75 0.25 0 1/16
いとこ 3/4 1/4 0 1/16

* Double 1st cousins: いとこ同士の両親それぞれが兄弟であるような関係。例えばいとこ同士の、父 - 父が兄弟、母 - 母が姉妹であるような場合

ここでΦは親縁係数と言って、 \Phi = \frac{1}{2}z_2 + \frac{1}{4}z_1で計算される。

横にそれるが、特定の座位におけるアレルの分配が、このIBDの確率分布から外れるかどうかをみる解析は罹患同胞対解析などと呼ばれて連鎖解析の一種で、遺伝性がそれなりに強いような遺伝病の原因遺伝子解析に用いられる。一番シンプルな解析の場合、病気の兄弟(「罹患同胞対」)を集めてくる。通常(z0,z1,z2)=(0.25,0.5,0.25)のはずだが、その変異部位が病気の原因遺伝子変異と連鎖している場合、遺伝性が強い病気の兄弟は同じ変異を共有すると思われるのでIBD=0が減るはずであるというのがコンセプトだ。

Identity By State (IBS)

さて、ここまでIBDについて説明してきた。ここでヒトゲノムに考えを戻すと、ヒトゲノムは子に伝達されるとき22本の染色体のそれぞれが独立に分配されるので、22本のそれぞれにおいて祖父から来たか祖母から来たかはランダムである。さらに染色体組み換えという現象があるので、このランダムネスは部位ごとに増大する。血縁関係からIBDの確率が一意に求まることを考慮すると、逆にゲノム上さまざまな変異部位におけるIBDを調べて、ゲノム全体におけるIBDの確率を求めれば、血縁関係が推測できそうだ。これが、基本的には冒頭で述べた震災の遺体の身元確認を行う方法論だ。

しかしこのIBDの推定というのがクセモノなのである。次の例を見ていただきたい。

家系図4

     父-----------------------母
     AC     |       AG
         -----------
         |     |
         兄    弟
         AC    AG

ここで、兄と弟は同じAアレルをもっている。しかし、このAアレルは同祖的ではない。なぜなら、兄はACのCが父に由来するのでAは母由来のA。弟はAGのGが母由来なのでAは父由来のAであって、同祖的ではないからだ。

このような場合、同祖的であるかないかに関わらず、同じアレルを持っていることをIBSと呼ぶ。もともとIBDを完全に求めることができた家系図1には8個のアレルがあったことを思い出してみていただきたい。この図ですらアレルは3個あるが、実のところSNPに関しては、ほとんどにおいて(実際上、遺体の個人確認に利用されると思われる商業ベースのジェノタイピングチップにおいてはすべて)2アレルしかないのだ。そこでデータから直接分かるのは、IBDではなくてIBSであることが多い。

IBSを用いたIBDの推定

さてこれでようやく結論に繋がる。「東日本大震災における身元不明の遺体」の身元確認において実際に使われると思われる方法だ。とうぜんながらここで調べるご遺体とご親戚のあいだに、家系図1のような完全な伝達図が書けるわけはない。

そこでIBSを求めてIBDを推定する方法がとられている。この方法を行うためにはゲノム上に散らばる多くのSNP・・・具体的には数十万以上の数が必要だ。

ここでは、この分野では非常によく使われる、使いやすいソフトウェアPLINKhttp://pngu.mgh.harvard.edu/~purcell/plink/)に組み込まれたアルゴリズムについて説明する。

IBSをI、IBDをZで表し、各SNPにおけるP(I = i | Z = z)について考える。すでに前述したとおり、この手法において使われるSNPはすべて2アレルである。アレル名を任意にA、Bとし、Aアレル頻度をp、Bアレル頻度をqとする。まず第一に、IBD=2である場合は、P(I=0|Z=2) = 0, P(I=1|Z=2) = 0, P(I=2|Z=2) = 1であることは明らか。

次に、最初に述べたように、ヒトは染色体を二本持つので、実験結果であるジェノタイプはAA、AB、BBの三通りあり、それぞれの頻度はHardy-Weinbergの法則から*4p^2、2pq、q^2である。IBD=0である場合は二人のヒトのジェノタイプは集団からランダムにサンプリングされてきたと考えることができるから、各IBSの条件付き確率はこれらの積から容易に求めることができる。

 P(I=0|Z=0) = 2p^2q^2
 P(I=1|Z=0) = 4p^3q+4pq^3
 P(I=2|Z=0) = p^4+4p^2q^2+q^4

最後にIBD=1の場合、まず片一方のジェノタイプについて確率を定めた後、もう片方の可能なジェノタイプのIBSはもう片側アレルの頻度によって決まるので、

 P(I=0|Z=1) = 0
 P(I=1|Z=1) = 2p^2q + 2pq^2
 P(I=2|Z=1) = p^3 + pq^2 + p^2q + q^3

である*5

ゲノム全体のSNPについてこれを計算すれば、SNPの数をLとすると

 P(I=i|Z=i) = \frac{\sum_{m=1}^L P_m(I=i|Z=i)}{L}

となることが期待される。

ここでP(I=i)について

 P(I=i) = \sum_{z=0}^{i}P(I=i|Z=z) P(Z=z)

と表せることから

 P(Z=0) = \frac{P(I=0)}{P(I=0|Z=0)}
 P(Z=1) = \frac{P(I=1) - P(Z=0)P(I=1|Z=0)}{P(I=1|Z=1)}
 P(Z=2) = \frac{P(I=2) - P(Z=0)P(I=1|Z=0) - P(Z=1)P(i=1|Z=1)}{P(I=2|Z=2)}

というふうにして、 (z_0, z_1, z_2)が推定できれば血縁関係についても推定ができる・・・ということになる。実際にはPLINKはこのあともう少しだけ補正をするのだが、その結果として出てくる数値はかなり正確度が高い(家系データの存在するサンプルにおいて確認しています)。

*1:例は有名な「下戸遺伝子」rs671からとった。これが片側の染色体においてAであるとき(ヘテロ)、アルデヒドヒドロゲナーゼの活性が低下しお酒を代謝しづらくなる。両方の染色体がA(ホモ)だと、ほぼお酒を飲めなくなる。そしてこのAは白人においてはほぼ見られない

*2:A、C、G、Tのこと

*3:この項に興味を持ってさらに考えてみたいという方がいますか?ここまでIBDは二人の人間間において検討してきましたが、「ある個人本人の二つのアレルが同祖的である」場合はどのようにしたら起こりえるのか、考えてみると面白いと思います

*4:今回は説明割愛でいいですか?

*5:PLINKでは有限サンプルからのp、qの推定から来る偏りを考慮しているがここでは割愛