ログイン 概要 よくある質問
2
1

mRNA-Seqの情報解析で、なぜかrRNAが混入することが多いようですが、 これを除去するのに使用するrRNA、tRNAの情報はどこから入手するのが一般的でしょうか。 もし自前で除去スクリプトを作成する必要がある場合は、rRNA、tRNAの座標情報をUCSCのどこかから入手し、 マッピング結果中のrRNA、tRNAにヒットした結果レコードを除外するなどの 対応を考えていますが、もっと効率的なツール・方法があったら教えてください。

質問日 Dec 02 '10 at 21:42

nob_fj's gravatar image

nob_fj ♦
50781628

edited Dec 04 '10 at 13:20

mn3's gravatar image

mn3 ♦♦
5154922


良く調べたら、同じ質問がSEQAnswersにもありました。 こちらの回答では、BEDtoolsを使用するようですが、あらかじめBED形式のrRNA,tRNA座標情報を用意しておく必要があるようです。

回答日 Dec 02 '10 at 22:40

nob_fj's gravatar image

nob_fj ♦
50781628

edited Dec 03 '10 at 17:58

mn3's gravatar image

mn3 ♦♦
5154922

どちらがやりやすいか検討してから対応を行ってみます。

(Dec 02 '10 at 22:41) nob_fj ♦ nob_fj's gravatar image

tRNAの座標に関しては、UCSCのTable browserでgroup="Genes and Gene Prediction Tracks"のtrack="tRNA Genes"からBEDフォーマットで入出できそうです。 rRNAがどこにあるかはまだ分かっていません。

(Dec 03 '10 at 17:29) nob_fj ♦ nob_fj's gravatar image

hacchyさんgaouさんからいただいたヒントを元に、 BAMファイル中のrRNA、tRNAを除去する方法が分かりました。 以下のwikiにまとめてあります。

rRNA,tRNA除去forBAMフロー

rRNA,tRNAの座標情報をBEDフォーマットでUCSC Table Browserから取得する

(Dec 08 '10 at 20:25) nob_fj ♦ nob_fj's gravatar image

私自身が確認したわけではないですが、cufflinksを使用したフローでもTopHatが出力するSAMを上記処理でフィルタリング可能という話を聞きましたので、質問は一旦閉じさせていただきます。もし間違っていたら、質問の再開をお願いします。

(Dec 29 '10 at 14:13) nob_fj ♦ nob_fj's gravatar image

生物種はマウスでしょうか? 一般的かどうかは分かりませんが,私は Ensembl API を使ってアノテーションの取得をしています。 Ensembl Genome Browser にある全てのアノテーションを柔軟に取得することができるので,tRNA の位置情報を取得したり,その配列を取得したり,mRNA-seq データから遺伝子ごとの RPKM を計算するときに必須なエキソンの位置を取得したり,という処理を短いコードで書けるので,愛用してます。

ヒト/マウスであればアノテーションはある程度しっかりしていると思いますが,Ensembl 生物種の中にも tRNA のアノテーションが足りなかったりする場合もあるようです。そのような場合は,tRNA-SE などを自前で動かして,ncRNA 領域の予測を行うと良いそうです。 また,Ensembl にないような生物種は,GenBank ファイルか GFF ファイルがある場合が多く,BioPerl ベースのパーサを作って情報を取得しています。

回答日 Dec 02 '10 at 22:19

hacchy's gravatar image

hacchy
121126

edited Dec 04 '10 at 13:18

mn3's gravatar image

mn3 ♦♦
5154922

生物種はヒトなので、Ensembl APIを試してみます。 できたらやり方をwikiにアップしようと思います。

(Dec 02 '10 at 22:32) nob_fj ♦ nob_fj's gravatar image

申し訳ないですが、Ensembl APIですが、サーバ環境が直接外に出られないので、ちょっと敷居が高そうです。ローカルにデータをもって来てMySQL dbを構築する手もありますが、このためだけに行うにはちょっと作業負荷が高そうなので、他の方法を探したいと思います。

(Dec 03 '10 at 17:31) nob_fj ♦ nob_fj's gravatar image

私はお手軽にはとりあえずCufflinksかけてしまって、予測されたtranscriptに対してRepeatMaskerかけちゃったりしています。

回答日 Dec 03 '10 at 12:17

gaou's gravatar image

gaou ♦♦
22125

edited Dec 04 '10 at 13:19

mn3's gravatar image

mn3 ♦♦
5154922

素人質問で申し訳ないですが、RepeatMaskerにかける際の、クエリとリファレンスはどうなるのでしょうか。
クエリ->ヒットのあった遺伝子の配列?
リファレンス->rRNA,tRNAの配列リスト?
でしょうか。

(Dec 03 '10 at 17:36) nob_fj ♦ nob_fj's gravatar image

クエリはcufflinksをかけたあと、gtfの座標をもとに簡単なスクリプトでtranscriptのfastaファイルを作って使っています。Repeatmaskerのリファレンスは普通にRepbaseで、いろんなものがヒットしますが、RNAに該当するものだけを除去する(こちらも簡単なスクリプト、というかgrep)ようにしています。

(Dec 03 '10 at 17:50) gaou ♦♦ gaou's gravatar image

gaouさん もしご存知でしたら Repbaseから直接取得したわけではないのですが、 UCSCのTable browserで "Variation and Repeats"のカテゴリに"RepeatMasker"という トラックがあり、このカラムの "repClass"のカラムが以下のような構成になっており、 このうちtRNA,rRNAのもののみ抜き出せば、 gaouさんのフィルタリング対象と同じになるのではないかと 思いますが、違いますでしょうか。

(Dec 07 '10 at 22:55) nob_fj ♦ nob_fj's gravatar image
$ awk '{print $12}' allFieldsFromSelectedTable.txt | sort | uniq -c  
 461751 DNA  
   1881 DNA?  
1498690 LINE  
     51 LINE?  
 717656 LTR  
    122 LTR?  
 371543 Low_complexity  
   3733 Other  
   2236 RC  
    729 RNA  
1793723 SINE  
    425 SINE?  
   9566 Satellite  
 417913 Simple_repeat  
   7036 Unknown  
     97 Unknown?  
   1769 rRNA  
      1 repClass  
   1340 scRNA  
   4386 snRNA  
   1481 srpRNA  
   2002 tRNA
(Dec 07 '10 at 22:55) nob_fj ♦ nob_fj's gravatar image

基本的にはそうだと思います。汎用的に使うためにはRepeatMasker自前でかけた方が楽かとは思いますが。

(Dec 08 '10 at 02:33) gaou ♦♦ gaou's gravatar image

UCSCのアノテーションがない生物種でも、RepeatMaskerベースの方法論であれば、ゲノムが決定しており、マッピング出来さえすれば、その情報を使用して、
1.genomeからマップされた箇所の配列切り出し
2.切り出した配列へ、Repbaseでリピートマスク
3.ヒットしたリピートがrRNA,tRNAのもののみ、除外
というステップがとれるという理解でよいでしょうか。
今回の対象が、ヒトなので、 まずはUCSCアノテーションに依存した配列ベースの情報を介さない 座標ベースのやり方でまずは試してみたいと考えております。

(Dec 08 '10 at 11:30) nob_fj ♦ nob_fj's gravatar image

教えていただいて恐縮ですが、現在cufflinksはまだ導入できておらず、 cufflinksベースの解析フローが出来たら再度gaouさんのフローを試してみる予定です。対応には暫くお時間いただきたいと思います。
現在のBioConductorのDEGseqを使用した既知遺伝子アノテーションをベースとしたスプライスジャンクションを考慮しない解析フローの場合は、アノテーション済みのUCSCから取得したリピートの座標情報を使用して BEDtoolsを使用するやり方の方が相性は良さそうです。

(Dec 08 '10 at 16:44) nob_fj ♦ nob_fj's gravatar image
showing 5 of 7 show all
あなたの回答
プレビューをトグルする

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

×47
×13
×1
×1
×1

質問日: Dec 02 '10 at 21:42

閲覧数: 11,889 回

最終更新日: Dec 29 '10 at 14:13

powered by OSQA