もしかしたら、常識かもしれないので、 情報お持ちのかたがおられたら、お願いします。 topHatやmapSpliceなど、splicingを考慮したマッパーの結果から、 遺伝子レベルのタグカウントを計算するうまいやり方など、 情報お持ちのかたがおられましたら、 お知らせいただけますと助かります。 以下背景topHat-cufflinks-cuffdiffや、それに類似のフローが デファクトスタンダード的解析であると知りつつ、 リード長の長いRNA-SeqにedgeR等をかけるやりかたを考えています。 edgeRなどのDEG検出用のRパッケージ等は、 fpkm/rpkmは使わないように推奨しているかと思います。 EdgeRのedgeRUsersGuide.pdfより引用 http://www.bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeRUsersGuide.pdf "There are good reasons why the NB model is appropriate for the raw count data, but transforming the data using RPKM (or FPKM or similar) renders our distributional assumptions invalid and we cannot guarantee that our methods will be reliable for such transformed data." 35塩基や、50塩基程度であれば、 BWAやBowtieなどで、splicingを考慮せずに、 マップしたものを、 DEGseqパッケージ中のgetGeneExpや、 BEDtoolsのcoverageBEDなどで、タグカウントすればよかったのですが、 最近リード長が伸び、150塩基のRNA-Seqなども よく見かけるようになったかと思います。 リード長が伸びるとexon長を超えてしまう場合も 多々あるので、junctionをまたぐタグの数を無視するには、 支障が出てきているように思います。 topHatが出力するaccepted_hits.bamに対して、 選択肢1
選択肢2
一応、BioStarやSeqAnswersで上記難点の解決策も探しては見たのですが、 自分では見つけられませんでした。 coverageBEDで、イントロンも含めてカウントした後に、 全イントロンのタグ数を引くとか、 小賢しい手も考えられますが、 境界のリードなどの扱いで、厳密では無くなる点に難があります。 もし、うまい手やら、既存のスクリプトでこんなものがある等、 関係する情報お知らせいただけますと幸いです。 直接の解答でなくとも、ご助言ありましたら、お願いします。 質問日 Apr 03 '12 at 16:59 nob_fj ♦ |
こんばんは。
cuffmergeの結果、merged.gtfというA、Bのデータに基づく新しいjunction情報がえられますので、
すると、cuffdiffでは、FPKM値を算出しますが、FPKM値は無視して 回答日 Jul 13 '12 at 20:24 suimye お返事遅れました。以前来ていたスパム的投稿の影響でメーラがLSQAの通知メールを迷惑行きにしてしまっておりました。 また詳細な情報大変ありがとうございます。お知らせいただいたやりかた、試してみます。 cuffdiffのタグカウントのjunction readの比率や割り振り方が気になるので、HTSeqをカスタムしたやり方と比べて評価しようと思っています。(大分先になりそうですが)
(Jul 19 '12 at 21:52)
nob_fj ♦
|
coverageBedの -b オプションには遺伝子アノテーションのファイルを指定しているのでしょうか? bam を bamToBed -split でBEDに変換してからcoverageBedをかけたら、うまくいきそうな気がします。 それでもダメなら、イントロン領域にあるタグ(の部分)を intersectBedで削るとうまく行くかもしれません。 - mergeBed -i annotation.gff > annotation.merge.bed - bamToBed -split -i accepted_hits.bam > accepted_hits.bed - intersectBed -a accepted_hits.bed -b annotation.merge.bed > accepted_hits.exon.bed - accepted_hits.exon.bed にcoverageBedをかける 試してないので、うまく動くか分かりませんが、 回答日 Apr 03 '12 at 20:27 yuifu 試してみました。 以下の条件全て結果は同一で、intron領域もカウントされてしまいました。 結果のカウントは全て同じで、lengthのカラムのみ、-splitオプションが有効な、 2と6の条件のみ、intronを除外した値が表示されていました。
intersectBedを使う件についてですが、intron領域に別の遺伝子が含まれる場合等、根こそぎ削ってしまったりしまいませんでしょうか。アノテーションにも依るような気がしますが、refFlatなんかはnonCodingなども含まれていたような気がするので、削られてしまいそうな気はします。それらは別にやるのも手ですが。
(Apr 03 '12 at 22:47)
nob_fj ♦
補足ですが、-bには、BED形式でダウンロードしたrefFlatが入っています。上記の、入力BAMと書いてあるのは"-abam"で渡し、入力BEDと書いてあるのが"-a"で渡したものです。
(Apr 03 '12 at 23:55)
nob_fj ♦
|
自己レスですが、現在までに分かったことを記載します。
もし、間違っていたり、関連情報ありましたらコメント等引き続きお願いします。 回答日 Jul 11 '12 at 21:01 nob_fj ♦ |