Answer by nob_fj

nob_fj — Mon, 14 Apr 2014 00:13:53 +0900

いくつか私の誤解があるかもしれない前提で回答します。 (つまり鵜呑みにされても責任は持てませんという前提です。私は一介の技術者で研究者ではありません。)

結論から言えば

(1) このようなフローは王道ではないので考えない方が良いのでは。
(2) 王道の一つ
(3) 転写物配列に bowtieマッピング後定量する方法ではよく使われる部類。
(4) 個人的によく知らないからノーコメント。(最近よく聞く程度の認識)

IGVで可視化することを予定しておられるのであれば、ゲノムにマッピングすることを暗黙的に想定しておられるのかなと思いますが、

RNA-seqの定量には、以下の大きく2系統が存在します。

A.ゲノム配列にマッピングする手法と
B.既知または予測トランスクリプト配列にマッピングする手法

更に、Aには、以下などがあり

A1:比較検定の厳密性に重きを置く1群多サンプルをとることの多い主に遺伝子単位でのRでの定量と群間比較
A2:遺伝子単位、転写物(isoform)単位、TSS単位、CDS単位等の多様な単位で比較可能な、tophat-cufflinksでの定量比較 (2)

Bには以下があります。

B1:既知遺伝子アノテーションを用いるもの (3)
B2:de novo予測転写物をベースとして定量を行うもの (3)

マウスであれば癌とか実験系統から余程分化しているにしてもB2は精度の問題で第一選択肢にはならないと思います。

あとは、isoformレベルでの解析を重視しないのであればマシンリソースを食うtophatは必ずしも必須ではないと個人的には思います。

最もマシンリソースを必要としないのは、おそらく(3)ではないかと思います。 (少なくともマッピングはかなりメモリ容量も計算時間も少ないはず)

しかし、私の現在の理解が正しければeXpressはゲノムにマッピングした結果を使わなかったと記憶していますので、 IGVでのゲノムへのマッピング結果とは別々に転写物へのマッピングが必要になる気がします。

私個人の経験では、50塩基長程度の短鎖RNA-seqであれば splicing junctionを考慮するマッピングプログラムのtophatでも junctionを考慮しないbowtieやBWAでもゲノム配列に対するマップ率は数パーセント程度しか違いが無いので、

研究の目的が、新規のsplicing variantの探索等でなく、遺伝子の発現定量や、複雑な転写制御を伴わないnon-coding RNAの探索等なのであれば、ゲノムにbowtieであてて、 HTSeq countやRのDEGseqパッケージのgetGeneExp関数などで定量してしまっても支障はないように思います。

つまり、以下の別の選択肢です。

(5)BowtieまたはBWA-HTSeq-DESeq
(6)BowtieまたはBWA-DEGseq(getGeneExp)-DEGseq(DEGexp)

また、宣伝ですが、meguさんが受託解析をされている企業の社員などでなく、研究所の研究員や、大学等の研究関係者、企業等の非営利研究関係者であれば利用可能な選択肢の一つとして、ご参考までにお知らせしますが、

昨年度まで文科省予算で動いていたセルイノベーションプログラムの公開された解析パイプラインでTopHat-cufflinks-cuffdiffによる発現比較までを遺伝研内にあるサーバリソースで実行できるものが現在でも稼働しています。

http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=1.+RNA-seq

(2)(5)(6)は確実にできますが、

リンク先のリストにはありませんが(3)も確かできたような気がします。

解析対象のデータを遺伝研内サーバにアップロード可能であればご検討ください。

また、上のサービスとは直接の関係はありませんが、 DDBJなどのgalaxyでもtophat/tophat2は実行できるかと思います。

https://p-galaxy.ddbj.nig.ac.jp/

私は詳しくはありませんが、マシンリソースの問題であれば、 AWS等のクラウド上で計算するという選択などもあるとは思いますので、ご参考までに。

Answers to: RNA-seq データの定量と可視化の、ツールの組み合わせ

Answer by nob_fj