<?xml version="1.0" encoding="utf-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>Answers to: RNA-seq データの定量と可視化の、ツールの組み合わせ</title><link>http://qa.lifesciencedb.jp/questions/751/rna-seq-%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E5%AE%9A%E9%87%8F%E3%81%A8%E5%8F%AF%E8%A6%96%E5%8C%96%E3%81%AE-%E3%83%84%E3%83%BC%E3%83%AB%E3%81%AE%E7%B5%84%E3%81%BF%E5%90%88%E3%82%8F%E3%81%9B</link><description>&lt;p&gt;たびたび畏れ入ります。
このサイトのご親切な先生方のおかげで、少しずつ解析方法も学習できましたが、煮詰まってしまいました。質問として不備があるかと思いますが、ご助言を頂けましたら幸いです。&lt;/p&gt;
&lt;p&gt;Single end reads (length = 50 nt) のRNA-seq data を、mouse genome (GRCm38)にマッピングし、
mRNAについて定量（rpkm）と可視化（IGVを使用予定）を目的として取り組んでおります。&lt;/p&gt;
&lt;p&gt;IGVによる可視化はなんとかできそうです。ですが、定量に難儀しております。効率化をはかるため、上記の定量と可視化の両方に使えるアウトプットを作成できればと思います。&lt;/p&gt;
&lt;p&gt;そこで、考えている解析フローは以下の4つです。どれが良いか、何かご助言を頂戴できませんでしょうか？　&lt;/p&gt;
&lt;p&gt;① Bowtie  &amp;gt; Cufflinks&lt;/p&gt;
&lt;p&gt;② TopHat &amp;gt; Cufflinks&lt;/p&gt;
&lt;p&gt;③ Bowtie  &amp;gt; eXpress&lt;/p&gt;
&lt;p&gt;④ Bowtie  &amp;gt; RNA-STAR&lt;/p&gt;
&lt;p&gt;恥ずかしながら、にわか勉強のため、ありえない組み合わせがあるかもしれません。どうかご容赦ください。個人的には①が出来たら嬉しいですが、ツールの組み合わせが適切か自信がありません。ネット上では②の組み合わせを多く拝見し、試しましたが、TopHatの時点でものすごく時間がかかり、事情により途中で断念しました。③と④の組み合わせは英語のサイトで見つけました。③が速そうで期待しておりますが、eXpressはあまり聞いたことがないツールで心配です。&lt;/p&gt;</description><atom:link href="http://qa.lifesciencedb.jp/questions/751/rna-seq-%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E5%AE%9A%E9%87%8F%E3%81%A8%E5%8F%AF%E8%A6%96%E5%8C%96%E3%81%AE-%E3%83%84%E3%83%BC%E3%83%AB%E3%81%AE%E7%B5%84%E3%81%BF%E5%90%88%E3%82%8F%E3%81%9B" rel="self"></atom:link><language>ja</language><lastBuildDate>Mon, 14 Apr 2014 00:13:53 +0900</lastBuildDate><item><title>Answer by nob_fj</title><link>http://qa.lifesciencedb.jp/questions/751/rna-seq-%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E5%AE%9A%E9%87%8F%E3%81%A8%E5%8F%AF%E8%A6%96%E5%8C%96%E3%81%AE-%E3%83%84%E3%83%BC%E3%83%AB%E3%81%AE%E7%B5%84%E3%81%BF%E5%90%88%E3%82%8F%E3%81%9B/755</link><description>&lt;p&gt;いくつか私の誤解があるかもしれない前提で回答します。
(つまり鵜呑みにされても責任は持てませんという前提です。
私は一介の技術者で研究者ではありません。)&lt;/p&gt;
&lt;p&gt;結論から言えば&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;(1) このようなフローは王道ではないので考えない方が良いのでは。&lt;/li&gt;
&lt;li&gt;(2) 王道の一つ&lt;/li&gt;
&lt;li&gt;(3) 転写物配列に bowtieマッピング後定量する方法ではよく使われる部類。&lt;/li&gt;
&lt;li&gt;(4) 個人的によく知らないからノーコメント。(最近よく聞く程度の認識)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;a href="http://www.broadinstitute.org/igv/home"&gt;IGV&lt;/a&gt;で可視化することを予定しておられるのであれば、
ゲノムにマッピングすることを暗黙的に想定しておられるのかなと
思いますが、&lt;/p&gt;
&lt;p&gt;RNA-seqの定量には、以下の大きく2系統が存在します。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;A.ゲノム配列にマッピングする手法と&lt;/li&gt;
&lt;li&gt;B.既知または予測トランスクリプト配列にマッピングする手法&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;更に、Aには、以下などがあり&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;A1:比較検定の厳密性に重きを置く1群多サンプルをとることの多い主に遺伝子単位でのRでの定量と群間比較 &lt;/li&gt;
&lt;li&gt;A2:遺伝子単位、転写物(isoform)単位、TSS単位、CDS単位等の多様な単位で比較可能な、tophat-cufflinksでの定量比較 (2)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Bには以下があります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;B1:既知遺伝子アノテーションを用いるもの (3)&lt;/li&gt;
&lt;li&gt;B2:de novo予測転写物をベースとして定量を行うもの (3)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;マウスであれば癌とか実験系統から余程分化しているにしてもB2は精度の問題で第一選択肢にはならないと思います。&lt;/p&gt;
&lt;p&gt;あとは、isoformレベルでの解析を重視しないのであれば
マシンリソースを食う&lt;a href="http://tophat.cbcb.umd.edu/"&gt;tophat&lt;/a&gt;は必ずしも必須ではないと個人的には思います。&lt;/p&gt;
&lt;p&gt;最もマシンリソースを必要としないのは、おそらく(3)ではないかと思います。
(少なくともマッピングはかなりメモリ容量も計算時間も少ないはず)&lt;/p&gt;
&lt;p&gt;しかし、私の現在の理解が正しければ&lt;a href="http://bio.math.berkeley.edu/eXpress/overview.html"&gt;eXpress&lt;/a&gt;は
ゲノムにマッピングした結果を使わなかったと記憶していますので、
IGVでのゲノムへのマッピング結果とは別々に転写物へのマッピングが必要に
なる気がします。&lt;/p&gt;
&lt;p&gt;私個人の経験では、50塩基長程度の短鎖RNA-seqであれば
splicing junctionを考慮するマッピングプログラムの&lt;a href="http://tophat.cbcb.umd.edu/"&gt;tophat&lt;/a&gt;でも
junctionを考慮しない&lt;a href="http://bowtie-bio.sourceforge.net/index.shtml"&gt;bowtie&lt;/a&gt;や&lt;a href="http://bio-bwa.sourceforge.net/"&gt;BWA&lt;/a&gt;でも
ゲノム配列に対するマップ率は数パーセント程度しか違いが無いので、&lt;/p&gt;
&lt;p&gt;研究の目的が、新規のsplicing variantの探索等でなく、
遺伝子の発現定量や、複雑な転写制御を伴わないnon-coding RNAの探索等
なのであれば、ゲノムにbowtieであてて、
&lt;a href="http://www-huber.embl.de/users/anders/HTSeq/doc/count.html"&gt;HTSeq count&lt;/a&gt;やRの&lt;a href="http://www.bioconductor.org/packages/release/bioc/html/DEGseq.html"&gt;DEGseq&lt;/a&gt;パッケージのgetGeneExp関数などで
定量してしまっても支障はないように思います。&lt;/p&gt;
&lt;p&gt;つまり、以下の別の選択肢です。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;(5)BowtieまたはBWA-HTSeq-DESeq&lt;/li&gt;
&lt;li&gt;(6)BowtieまたはBWA-DEGseq(getGeneExp)-DEGseq(DEGexp)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;また、宣伝ですが、meguさんが受託解析をされている企業の社員などでなく、
研究所の研究員や、大学等の研究関係者、企業等の非営利研究関係者であれば
利用可能な選択肢の一つとして、ご参考までにお知らせしますが、&lt;/p&gt;
&lt;p&gt;昨年度まで文科省予算で動いていたセルイノベーションプログラムの
公開された解析パイプラインでTopHat-cufflinks-cuffdiffによる
発現比較までを遺伝研内にあるサーバリソースで実行できるものが
現在でも稼働しています。&lt;/p&gt;
&lt;p&gt;http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=1.+RNA-seq&lt;/p&gt;
&lt;p&gt;(2)(5)(6)は確実にできますが、&lt;/p&gt;
&lt;p&gt;リンク先のリストにはありませんが(3)も確かできたような気がします。&lt;/p&gt;
&lt;p&gt;解析対象のデータを遺伝研内サーバにアップロード可能であればご検討ください。&lt;/p&gt;
&lt;p&gt;また、上のサービスとは直接の関係はありませんが、
DDBJなどの&lt;a href="http://galaxyproject.org/"&gt;galaxy&lt;/a&gt;でもtophat/tophat2は実行できるかと思います。&lt;/p&gt;
&lt;p&gt;https://p-galaxy.ddbj.nig.ac.jp/&lt;/p&gt;
&lt;p&gt;私は詳しくはありませんが、マシンリソースの問題であれば、
&lt;a href="https://aws.amazon.com/jp/"&gt;AWS&lt;/a&gt;等のクラウド上で計算するという選択などもあるとは
思いますので、ご参考までに。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Mon, 14 Apr 2014 00:13:53 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/751/rna-seq-%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E5%AE%9A%E9%87%8F%E3%81%A8%E5%8F%AF%E8%A6%96%E5%8C%96%E3%81%AE-%E3%83%84%E3%83%BC%E3%83%AB%E3%81%AE%E7%B5%84%E3%81%BF%E5%90%88%E3%82%8F%E3%81%9B/755</guid></item></channel></rss>