いつも勉強させて頂いております。使用している語彙が不適切かもしれませんがどうかご容赦頂きたく思います。 お忙しいところ畏れ入りますがご教授頂けますと幸いです。 ★背景 細胞A と細胞B について、Biological triplicates (n=3) を用意しRNA-sequencing を実施しました。つまり、細胞Aについて3回分のRNA-seqのデータ、細胞Bについて3回分のRNA-seqのデータがあります。 現在、TopHat、Cufflinks, Cuffcompare, Cuffdiff で得られたファイルが手元にあります。 ★質問 これらのデータを使って、細胞Aと細胞Bに発現する遺伝子(一種類のみ)のFPKMを比較したグラフを書きたいと考えております。 恥ずかしながら浅学のため、以下の点についてご意見を頂けないでしょうか? ① グラフには、Cuffdiff を実行した際に得られる「genes.fpkm_tracking」中のFPKMを使用して宜しいでしょうか? ② ①のFPKM でグラフを作成した場合、いわゆるエラーバーには、どのファイルのどの値を用いれば良いのでしょうか? ③ それとも各RNA-seq データずつFPKM を算出し、それをエクセル上で平均値、標準偏差を求めてグラフを作成するべきでしょうか? 質問が初歩的で大変申し訳ありません。Cuffdiff は「total reads 数を考量し triplicates をまとめたFPKM」が得られる、と理解しておりますが、そのFPKM でグラフを作るのが適切なことなのかどうか、そしてエラーバーのための値(標準偏差)は?と往生しております。 もちろん、そもそも根本的に間違っていることも覚悟しております。その場合、恥ずかしながらいわゆるスタンダードなグラフ作成方法をご教授頂けますと助かります。 お手数をおかけ致しますどうか何卒宜しくお願い致します。 質問日 Jan 26 '15 at 16:50 ara |
質問から大分期間が経っているようなので既に解決されているかもしれませんし、下記情報すでにご存知かもしれませんが、 R言語用のパッケージCummeRbundがCufflinks-Cuffdiffの発現量のグラフに最も一般的に使われるものの一つかと思います。 このパッケージ用説明PDFの10ページ目のbox plotなどがaraさんの想定されている1遺伝子用のグラフでしょうか。 これらの日本語解説としては以下の記事などが詳しいと思います。 cuffdiffの結果ファイル群を読み込んで グループごとでも、サンプルごとでもかけるようですね。 これで使われているエラーバーを調べたければ、ソース読むのは多少骨が折れますがRでcummeRbundパッケージ読み込んで以下実行すれば内部で使われているggplot2のgeom_boxplotに関する呼び出し箇所が見つかるはずです。
ソースの辿り方は拙文をご参考までに。 回答日 Mar 29 '15 at 18:27 nob_fj ♦ |