個人ゲノム情報の楽しみ方

※本エントリでは倫理問題をすっ飛ばしております。本エントリに限った話であり、私がゲノムについての生命倫理学的側面をないがしろにしているわけではありません。

まあ文句言いながらも大変興味深く見守ってるわけなんですけど

http://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DRA000583

fastqって、short readかよ!*1

ということは、この「個人ゲノム」データを皆様が楽しむためにはここから膨大なデータをダウンロードしたあと次のようなステップを踏むことになります。

  1. プリプロセッシング。精度の悪いリードをフィルターするなど。
  2. BWAかなにかを使ってリアラインメント。25 - 200塩基程度のshort readを、30億塩基からなる参照ヒトゲノム配列に貼り付けていく*2。計算機負荷高し。
  3. ポストプロセッシング
  4. GATKかSamToolsかなにかをつかってバリアントコール。参照ゲノム配列と異なる配列、つまり「遺伝的変異」があるかどうかを、通常ベイズ的な感じで推定。コピー数多型知りたいならさらに別のソフトウェアを。

・・・ってさあ、これ結局ゲノム専門のラボ以外は使えませんって感じじゃないですか。つうかふつうシークエンス施設ごとに解析ソフトウェアのパラメータのチューニングだってしてるだろうし。

アセンブル後データでお願いしたいです!VCFください(参照ゲノムと異なる情報、つまり「遺伝的多型情報」のみ入っているファイル)!

*1:と今気づいたようなふりしてますが http://science.slashdot.jp/story/12/08/02/0043217/ で知りました

*2:リファレンスゲノム(白人)でもいいが、日本人なら理研の日本人ゲノム使ってもいいんでしょうね。今現在日本人を解析してないのでよくわかりません。