ログイン 概要 よくある質問

複製無しの2サンプル間のRPKMの統計処理によって、発現変動遺伝子を検出したいと考えています。 文献を検索し、Fisher's exact testをしたいと思っているのですが、エクセルでは計算能力の限界を超えてしまうため 計算に適したソフトなどを教えて頂けないでしょうか。

また他のRPKMの比較に適した検定があればそちらのほうも宜しくお願い致します。

質問日 Sep 13 '14 at 16:52

Tshow's gravatar image

Tshow
111


私の記憶違いでなければ、FETで発現変動遺伝子(DEG)を検出する際にRPKMにしてしまうと、 何本のリードがその数値を支持しているかの情報が失われてしまうため問題がありますので、 RPKMでなくraw tag countを使うことが推奨されてると思います。 FETでのDEG検出は以下のR/Bioconductorのパッケージでそれができます。検定の種類(method)でFETを選べば良いです。

Rの使い方をご存知か、勉強するおつもりなら、門田先生らの公開されている(Rで)塩基配列解析で懇切丁寧にやりかたが書いてあります。

上にはかなうべくもない拙文ですがDEGseq FETでのDEGの検出のやりかたはこちらにも記載しています。

RPKMとではないですが、同様の概念をFPKMと呼んでDEGの検出を行うので最も人気のあるツールはCuffdiffではないかと思います。

パッケージに頼らずご自身でRのfisher.testを実行されても良いと思います。for文でまわせば時間はかかりますが、 低スペックな計算機でもおそらく暫く待てば結果は返ってくるはずです。

Rを学習する時間的な余力がないなどの状況で、かつ非営利利用で、データを遺伝研にあるサーバにアップロードしても差し支えなければ、 遺伝研Platform for Drug Discovery(Cell Innovationプログラム等で開発されたもの)の Maserというシステム上で動作するパイプラインで解析することもできます。 データは望まなければ公開はされません。これは自分が開発に関わった者なので使い方が良く分らなければ ここにコメントくだされば反応できると思います(ただ外部ボランティアとして対応するのでその点ご留意ください)。

使い方は、以下のパイプラインと類似で、こちらの方がまじめにマニュアルを記載しておりますのでご参考まで。

DEGseqを使う上で多少癖があると思うのが既知遺伝子アノテーション情報がUCSC Genome Bioinformaticsで公開してる RefFlat形式のものを利用する点です。GTF形式の遺伝子アノテーションの方が一般的かと思うので、 GTFファイルしかお手元にない場合などは以下のパイプラインであらかじめ変換をします。

  • Gtf->refFlat (マニュアルはないですが、GTFファイルをアップロードすると選択肢に出てきます。)

余談ですが、FETだけで実施すると、タグ数の多い発現量が多い and/or 遺伝子長が長い遺伝子で有意差が出やすいので、 Fold changeなどを組み合わせて用いた方がハズレ遺伝子を引く頻度がいくらか減らせるかもしれません。 FETの検定はあくまでサンプル間の差の比較なので、N=1では期待する群間の差以外の要因による差の影響は統計処理だけでは避けがたいかとは思います。

回答日 Sep 13 '14 at 18:49

nob_fj's gravatar image

nob_fj ♦
50761328

edited Oct 18 '14 at 23:53

あなたの回答
プレビューをトグルする

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

×11

質問日: Sep 13 '14 at 16:52

閲覧数: 3,488 回

最終更新日: Oct 18 '14 at 23:53

powered by OSQA