minimacに仕掛けられたトラップ

メモ。

高速imputationのソフトウェアとしてminimacというのがあります。

http://genome.sph.umich.edu/wiki/Minimac

MACHに対するminimacはIMPUTEに対するIMPUTE2のようなもので、アルゴリズム的には似たようなものなのだそう(minimacのほうは例によってまだ公開されてないので良くわからない)。ほとんどのimputeアルゴリズムはSNPジェノタイプを用いて、observed SNP -> true SNPのemission probabilityとSNP{p番目} -> SNP {p+1番目}のtransition probabilityのパラメータの最尤推定を行うHMMなわけですけど、IMPUTE2はphase <-> imputeを繰り返すMCMCで、minimacは似たようなものなんだそうだ。IMPUTEとMACHでは後者のほうが明らかにソフトウェア的に扱いやすくて、後者の方が人気が高く現在に至っているが、IMPUTE2とminimacの関係もそうなるかも?

とどうでもいい前置きはいいとして、トラップにはまったのでメモしておく。MACH関連ソフトウェアでSNPの位置関係を表すファイルと言えばmerlin形式の「M rsxxxx」だったり、ハプロタイプファイルの「rsxxxx」だったり(一列目の「M」がない)しますが、minimacが受け取るphasedファイルのsnpファイルは「rsxxxx」ですよ、とということです。まあ考えりゃ「M」があるものは「datファイル」と表現してるようだ。うーんしかし半日使ってしまった。