ログイン 概要 よくある質問

とある遺伝病の原因遺伝子を調べて、リシーケンシングからSNPs解析を行っています。
SNPsをコールする際、samtoolsであれば、
ーーーーbam.listーーーーー
1.bam
2.bam
3.bam
ーーーーーーーーーーーーー
というようなファイルを準備し、
samtools mpileup -uf hg19.fa -b bam.list | bcftools view -vcg-
とすると個体ごとにSNPsが分けられて出力されます。
全サンプル混ぜてSNPsを検出するほうが、SNPsの誤判定が起きにくいようなので、できれば1つずつ入力するよりも、併せてSNPsのコールを行いたいと考えています。
ここからが問題なのですが、GATKを用いると、multi-allelicなSNPsを検出することが可能だということで、GATKでSNPsのコールを行いたいのですが、たとえば次のようにしても、個体ごとにSNPsを分けることができません。
java -jar GenomeAnalysisTK.jar -R hg19.fa -T UnifiedGenotyper -o 1-2-3.vcf -glm BOTH -I 1.bam -I 2.bam -I 3.bam
GATKで複数のBAMファイルを同時に入力し、各BAMファイルごとに分かれた状態でSNPsを出力することは可能でしょうか?
宜しくお願い致します。

質問日 Jan 24 '12 at 11:18

kyoshita's gravatar image

kyoshita
111

edited May 24 '13 at 00:15

mn3's gravatar image

mn3 ♦♦
5154922


GATKはどのバージョンをお使いでしょうか? 最新のver2以上でしたら、複数のBAMファイルを指定できませんか?

また、各BAMファイル内のサンプル名(@RG行)は、適切に記述されているでしょうか?

なお、GATKでは結果は一つのVCFファイルに複数サンプルのGenotypeがまとめて出力されます。 後でSelectVariantsなどで各サンプルごとに分けることはできると思います(-snオプション)。

回答日 Oct 25 '13 at 14:05

yamagu's gravatar image

yamagu
111

質問した当時は分かっていなかったのですが、yamaguさんのご指摘されたとおり、RG行が適切に設定されておらず、全てのBAMで同一のサンプル名を付けていたことが原因でした。 今は、bwa sampe をかけるときに -r オプションで、 "@RGtID:sample1tSM:sample1tPL:IlluminatLB:sample1" とし、BAMファイルごとに異なる IDを設定しています。

レスありがとうございます。

(Jan 08 '14 at 18:29) kyoshitake kyoshitake's gravatar image
あなたの回答
プレビューをトグルする

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

×4
×4
×2
×1

質問日: Jan 24 '12 at 11:18

閲覧数: 8,120 回

最終更新日: Jan 08 '14 at 18:56

powered by OSQA