たびたび畏れ入ります。 このサイトのご親切な先生方のおかげで、少しずつ解析方法も学習できましたが、煮詰まってしまいました。質問として不備があるかと思いますが、ご助言を頂けましたら幸いです。 Single end reads (length = 50 nt) のRNA-seq data を、mouse genome (GRCm38)にマッピングし、 mRNAについて定量(rpkm)と可視化(IGVを使用予定)を目的として取り組んでおります。 IGVによる可視化はなんとかできそうです。ですが、定量に難儀しております。効率化をはかるため、上記の定量と可視化の両方に使えるアウトプットを作成できればと思います。 そこで、考えている解析フローは以下の4つです。どれが良いか、何かご助言を頂戴できませんでしょうか? ① Bowtie > Cufflinks ② TopHat > Cufflinks ③ Bowtie > eXpress ④ Bowtie > RNA-STAR 恥ずかしながら、にわか勉強のため、ありえない組み合わせがあるかもしれません。どうかご容赦ください。個人的には①が出来たら嬉しいですが、ツールの組み合わせが適切か自信がありません。ネット上では②の組み合わせを多く拝見し、試しましたが、TopHatの時点でものすごく時間がかかり、事情により途中で断念しました。③と④の組み合わせは英語のサイトで見つけました。③が速そうで期待しておりますが、eXpressはあまり聞いたことがないツールで心配です。 質問日 Apr 10 '14 at 19:06 megu |
いくつか私の誤解があるかもしれない前提で回答します。 (つまり鵜呑みにされても責任は持てませんという前提です。 私は一介の技術者で研究者ではありません。) 結論から言えば
IGVで可視化することを予定しておられるのであれば、 ゲノムにマッピングすることを暗黙的に想定しておられるのかなと 思いますが、 RNA-seqの定量には、以下の大きく2系統が存在します。
更に、Aには、以下などがあり
Bには以下があります。
マウスであれば癌とか実験系統から余程分化しているにしてもB2は精度の問題で第一選択肢にはならないと思います。 あとは、isoformレベルでの解析を重視しないのであれば マシンリソースを食うtophatは必ずしも必須ではないと個人的には思います。 最もマシンリソースを必要としないのは、おそらく(3)ではないかと思います。 (少なくともマッピングはかなりメモリ容量も計算時間も少ないはず) しかし、私の現在の理解が正しければeXpressは ゲノムにマッピングした結果を使わなかったと記憶していますので、 IGVでのゲノムへのマッピング結果とは別々に転写物へのマッピングが必要に なる気がします。 私個人の経験では、50塩基長程度の短鎖RNA-seqであれば splicing junctionを考慮するマッピングプログラムのtophatでも junctionを考慮しないbowtieやBWAでも ゲノム配列に対するマップ率は数パーセント程度しか違いが無いので、 研究の目的が、新規のsplicing variantの探索等でなく、 遺伝子の発現定量や、複雑な転写制御を伴わないnon-coding RNAの探索等 なのであれば、ゲノムにbowtieであてて、 HTSeq countやRのDEGseqパッケージのgetGeneExp関数などで 定量してしまっても支障はないように思います。 つまり、以下の別の選択肢です。
また、宣伝ですが、meguさんが受託解析をされている企業の社員などでなく、 研究所の研究員や、大学等の研究関係者、企業等の非営利研究関係者であれば 利用可能な選択肢の一つとして、ご参考までにお知らせしますが、 昨年度まで文科省予算で動いていたセルイノベーションプログラムの 公開された解析パイプラインでTopHat-cufflinks-cuffdiffによる 発現比較までを遺伝研内にあるサーバリソースで実行できるものが 現在でも稼働しています。 http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=1.+RNA-seq (2)(5)(6)は確実にできますが、 リンク先のリストにはありませんが(3)も確かできたような気がします。 解析対象のデータを遺伝研内サーバにアップロード可能であればご検討ください。 また、上のサービスとは直接の関係はありませんが、 DDBJなどのgalaxyでもtophat/tophat2は実行できるかと思います。 https://p-galaxy.ddbj.nig.ac.jp/ 私は詳しくはありませんが、マシンリソースの問題であれば、 AWS等のクラウド上で計算するという選択などもあるとは 思いますので、ご参考までに。 回答日 Apr 14 '14 at 00:13 nob_fj ♦ nob_fj 先生 お忙しい中、このようなご丁寧なご回答を頂戴し本当にありがとうございました。 基礎的な質問をしてしまったと、ここ数日落ち込んでおりましたが、 nob_fj 先生の分かりやすいご説明を何回も拝読し、蒙が啓かれるとはまさにこのことかと思い至りました。 各ツールの特徴を体系的に理解することの重要性を痛感しております。 TopHat > Cufflinksが王道ではあるものの、私の条件(IGVの利用、length=50、既知遺伝子の定量)ならば、より高速の組み合わせである Bowtie > HTSeq-DESeq でも良さそうだ、とのことかと思います。 恥ずかしながら、HTSeq、DESeqについてはまだ勉強しておりません。 ぜひ勉強して、出来るだけ速い定量と可視化を実現したいと思います。 NGS解析の勉強を始めて以来、ライフサイエンスQAの先生方にはたくさん助けられております。 これ以上「教えて君」にならないよう、逆に回答を寄せられるように頑張りたいと思います。 本当にありがとうございました。 敬具
(Apr 14 '14 at 18:51)
megu
補足です。超が付くほど有名なのでご存知かと思いますが、門田先生はじめアグリバイオインフォマティクス教育研究プログラムのサイトで RのQuasRを使ったマッピング(内部的にはbowtieを使用している模様)から発現量定量まで行っている手法も懇切丁寧に紹介されておりますので、 念のためお知らせしておきます。国内で発現比較検定手法の解説でこのサイトの右に出るものはないかと思います。 私はbowtieも基本sam形式で出力しますが、bowtie出力形式や、SAMからBAMに変換後、BAM形式のマッピング結果ファイルから始める方法も解説があります。 (Rで)塩基配列解析(マップ後 | カウント情報取得 | について)
(Apr 16 '14 at 04:43)
nob_fj ♦
加えて上記の(B1)の手法の一つに転写物配列へのマッピング結果からタグカウントを集計する方法がありますが、以下の文章に方法が懇切丁寧に書かれています。 Linux操作のトレーニングにも最適ではないかと思います。Macでなので、マシンリソースはそれほど要求しないと思いますし、ほぼ同じ方法がcygwin等を使えばwindows上でもできるはずです。 お家でできるMac Bookでやる 次世代シーケンスデータ解析
(Apr 16 '14 at 04:46)
nob_fj ♦
|