36bpのシングルエンドRNA-seqデータを使って解析をしようとしているのですが、 バージョン1.0.12から追加された--butterfly-searchというオプションを使ったことの ある方、または使った時と使わなかった時の比較をされた方はいらっしゃいませんでしょうか? 36bpなので--segment-length 18でジャンクション同定してもノイズが多くなりそうで、 そのままbowtieでマッピングしてしまおうと考えていたのですが、Tophatのマニュアルを 見ていて、このオプションがあることを知ってどうしようか迷っています。 Tophatの論文にはこのbutterflyのアルゴリズムに関する記述はなく、SEQanswersでは 数百GBものoutputを出すとの報告があり 、ラボに大型サーバーがない私では自分で このオプションをテストするのが難しい状況です。 もしお試しになった方がいらっしゃれば、ご教授お願いいたします。 |
NGS Sufer's Wiki(tophat butterflyオプションの比較) にオプションを変えた結果をアップしてみました。 butterflyオプションになじみが無いため、オプションの渡し方がおかしいか、入力データ依存とは思いますが、 試したデータではbutterflyオプションとno-buttterflyに違いはありませんでした。 試した選択肢は以下
junctionの数は以下
詳しくはページをご覧ください。 使用データはSRR031811。 回答日 Nov 22 '11 at 22:52 nob_fj ♦ 解析ありがとうございます。 もしお手数でなければ --segment-length 17 --butterfly-search --segment-length 17 --butterfly-search で結果はでますでしょうか?
(Nov 24 '11 at 03:29)
Tanakky
6~8追加しました。
(Nov 28 '11 at 17:35)
nob_fj ♦
ありがとうございます。--segment-length 15の時、大きな違いが出ているようですね。 セグメント長さ10は短すぎてジャンクション同定ができないのでしょう。 17で差がでないのはアルゴリズムの詳細がわからないとなんともいえなさそうです。 精度の問題はありそうですが、この結果は短配列長RNA-seqでジャンクション同定をしたいときの 指標になりそうで、たいへん助かります。貴重なデータありがとうございます。
(Nov 29 '11 at 02:50)
Tanakky
|
Tanakkyさんにはお世話になっておりますので、以下試しましょうか。
SRR031811はおよそ1000万リード35baseのsingle-endのRNA-Seqです。(もっといいデータがあればお知らせ下さい。DRA/SRA/ERAであれば対応します。) 結果のbamをどこかに配置すれば良いですか?
nob_fjさん。大変助かります。--butterfly-searchを入れたコマンドは途中まで走らせただけですが、その時特にエラー等は出なかったのでこのコマンドで大丈夫だと思います。 大まかにはマッピング効率の変化、同定ジャンクション数の変化がわかればうれしいです。 もしbamとjunction.bedの結果がいただけるのであれば、なおうれしいです。