Chip-seqデータのマッピングにおけるマルチヒット/ミスマッチの扱い

Chip-seqデータのマッピングにつきまして質問があります。現在主にBowtieを使用してChip-seqデータのマッピングをしておりますが、オプション設定についてどのようなものが一番いいのか迷っております。

一つはマルチヒットの扱いで、全部レポートするから、レポートするデータを限定したり、ランダムにマッピングしたりする設定があるかと思いますが一般的にどのような設定が一番いいのでしょうか？自分ではあえてそれらをマッピングしなくても、本当にChip陽性の領域ならば他のリードがマッピングされるはずなのでレポートしなくてもいいような気もします。でも、せっかく一致するなら一つくらいランダムに割り当ててもとかも思います・・・

ミスマッチに関しましては少ない方が正確だと思いますが、自分では根拠無く、まあこれくらいかとデフォルトのまま2で実行しております。

-a --best --strata　の設定などもよさそうという理由で使用しておりますがあまり根拠はありません。結局はマッピング率がそれなりになるように設定してマッピングしているという状況です。

もし、一般的によいとされているような設定がございましたら、ぜひご指導いただきたいと思います。よろしくお願いいたします。

bowtie ngs

質問日 Apr 24 '11 at 22:45

gatapishi
71●4●7●11

edited May 18 '11 at 22:22

mn3 ♦♦
515●4●9●22

One Answer:

回答順最新支持されている順

一般的に良い設定は分かりませんが、
大体同じパラメータを用いています。
「-a --best --strata -m 1 -V 2」
ただ、この設定だとリピート配列やゲノム上に頻出の配列に結合する場合、
かなり落としてしまいますので、
ターゲットによっても多少考慮して
humanで80-90%マッピングならまあよし、
それより落ちるようなら、少し考えます。
rat, mouseはそれぞれ60-70%であればまあよしとしています。
上述のマッピング率を切った場合、
not hitのfastqを取り出して、
allで再アライメントして、どこら辺にマッピングされるか見て考えます。
たいていは、TATATATATATAなどの単純反復の非特異的っぽい配列が邪魔をしているだけなのですが……。
ちなみに、ピークの解析にはMACSを使っています。
なので、多少ランダムにマッピングされたとしても、
そこを有意なピークとして拾うことはまずありませんでした。

回答日 Apr 25 '11 at 00:39

kiake77
126●1●1●6

edited May 18 '11 at 22:31

mn3 ♦♦
515●4●9●22

お返事ありがとうございます。自分はマウスのchip-seqデータを使用しています。いろいろ試していますが、あるデータでは-m 1にするとかなりマッピング率が低く、30%くらいになってしまう場合もあります。-mの指定にかなり影響を受けていて-m 2にするだけで15%アップ、なしにするとさらに10%アップして行くという感じです。　非特異的なものをカウントどうするか迷うところですが、おっしゃるとおり、どこにマッピングされているかを確認するのはいい方法だと思いました。さっそくやってみようと思います。　それにしても、マウスでC57/BL6を使用していて、そのデータをmm9にマッピングしているのに、全てマッピングしてもマッピングできないリードがかなりあるのはどういうことなのでしょう？humanだと多様性がマウスよりありそうでそのせいでマッピングできないリードがあってもいいと思うのですが・・・

(Apr 26 '11 at 23:52) gatapishi

あなたの回答

プレビューをトグルする

コミュニティー wiki

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

ngs ×47
bowtie ×6

質問日: Apr 24 '11 at 22:45

閲覧数: 8,200 回

最終更新日: May 18 '11 at 22:31

Chip-seqデータのマッピングにおけるマルチヒット/ミスマッチの扱い

この質問をフォローする

ただいまベータテスト運用中です。そのために通知無くコンテンツの変更やサービスの停止変更されることがあります。

世界に広がるQAサイト

関係した質問