RNA-SeqのrRNAの除去

mRNA-Seqの情報解析で、なぜかrRNAが混入することが多いようですが、これを除去するのに使用するrRNA、tRNAの情報はどこから入手するのが一般的でしょうか。もし自前で除去スクリプトを作成する必要がある場合は、rRNA、tRNAの座標情報をUCSCのどこかから入手し、マッピング結果中のrRNA、tRNAにヒットした結果レコードを除外するなどの対応を考えていますが、もっと効率的なツール・方法があったら教えてください。

質問日 Dec 02 '10 at 21:42

nob_fj ♦
507●8●16●28

edited Dec 04 '10 at 13:20

mn3 ♦♦
515●4●9●22

3 Answers:

回答順最新支持されている順

良く調べたら、同じ質問がSEQAnswersにもありました。こちらの回答では、BEDtoolsを使用するようですが、あらかじめBED形式のrRNA,tRNA座標情報を用意しておく必要があるようです。

回答日 Dec 02 '10 at 22:40

nob_fj ♦
507●8●16●28

edited Dec 03 '10 at 17:58

mn3 ♦♦
515●4●9●22

どちらがやりやすいか検討してから対応を行ってみます。

(Dec 02 '10 at 22:41) nob_fj ♦

tRNAの座標に関しては、UCSCのTable browserでgroup="Genes and Gene Prediction Tracks"のtrack="tRNA Genes"からBEDフォーマットで入出できそうです。 rRNAがどこにあるかはまだ分かっていません。

(Dec 03 '10 at 17:29) nob_fj ♦

hacchyさんgaouさんからいただいたヒントを元に、 BAMファイル中のrRNA、tRNAを除去する方法が分かりました。以下のwikiにまとめてあります。

rRNA,tRNA除去forBAMフロー

rRNA,tRNAの座標情報をBEDフォーマットでUCSC Table Browserから取得する

(Dec 08 '10 at 20:25) nob_fj ♦

私自身が確認したわけではないですが、cufflinksを使用したフローでもTopHatが出力するSAMを上記処理でフィルタリング可能という話を聞きましたので、質問は一旦閉じさせていただきます。もし間違っていたら、質問の再開をお願いします。

(Dec 29 '10 at 14:13) nob_fj ♦

生物種はマウスでしょうか？一般的かどうかは分かりませんが，私は Ensembl API を使ってアノテーションの取得をしています。 Ensembl Genome Browser にある全てのアノテーションを柔軟に取得することができるので，tRNA の位置情報を取得したり，その配列を取得したり，mRNA-seq データから遺伝子ごとの RPKM を計算するときに必須なエキソンの位置を取得したり，という処理を短いコードで書けるので，愛用してます。

ヒト/マウスであればアノテーションはある程度しっかりしていると思いますが，Ensembl 生物種の中にも tRNA のアノテーションが足りなかったりする場合もあるようです。そのような場合は，tRNA-SE などを自前で動かして，ncRNA 領域の予測を行うと良いそうです。また，Ensembl にないような生物種は，GenBank ファイルか GFF ファイルがある場合が多く，BioPerl ベースのパーサを作って情報を取得しています。

回答日 Dec 02 '10 at 22:19

hacchy
121●1●2●6

edited Dec 04 '10 at 13:18

mn3 ♦♦
515●4●9●22

生物種はヒトなので、Ensembl APIを試してみます。できたらやり方をwikiにアップしようと思います。

(Dec 02 '10 at 22:32) nob_fj ♦

申し訳ないですが、Ensembl APIですが、サーバ環境が直接外に出られないので、ちょっと敷居が高そうです。ローカルにデータをもって来てMySQL dbを構築する手もありますが、このためだけに行うにはちょっと作業負荷が高そうなので、他の方法を探したいと思います。

(Dec 03 '10 at 17:31) nob_fj ♦

私はお手軽にはとりあえずCufflinksかけてしまって、予測されたtranscriptに対してRepeatMaskerかけちゃったりしています。

回答日 Dec 03 '10 at 12:17

gaou ♦♦
221●2●5

edited Dec 04 '10 at 13:19

mn3 ♦♦
515●4●9●22

素人質問で申し訳ないですが、RepeatMaskerにかける際の、クエリとリファレンスはどうなるのでしょうか。
クエリ->ヒットのあった遺伝子の配列?
リファレンス->rRNA,tRNAの配列リスト?
でしょうか。

(Dec 03 '10 at 17:36) nob_fj ♦

クエリはcufflinksをかけたあと、gtfの座標をもとに簡単なスクリプトでtranscriptのfastaファイルを作って使っています。Repeatmaskerのリファレンスは普通にRepbaseで、いろんなものがヒットしますが、RNAに該当するものだけを除去する（こちらも簡単なスクリプト、というかgrep）ようにしています。

(Dec 03 '10 at 17:50) gaou ♦♦

gaouさんもしご存知でしたら Repbaseから直接取得したわけではないのですが、 UCSCのTable browserで "Variation and Repeats"のカテゴリに"RepeatMasker"というトラックがあり、このカラムの "repClass"のカラムが以下のような構成になっており、このうちtRNA,rRNAのもののみ抜き出せば、 gaouさんのフィルタリング対象と同じになるのではないかと思いますが、違いますでしょうか。

(Dec 07 '10 at 22:55) nob_fj ♦

$ awk '{print $12}' allFieldsFromSelectedTable.txt | sort | uniq -c  
 461751 DNA  
   1881 DNA?  
1498690 LINE  
     51 LINE?  
 717656 LTR  
    122 LTR?  
 371543 Low_complexity  
   3733 Other  
   2236 RC  
    729 RNA  
1793723 SINE  
    425 SINE?  
   9566 Satellite  
 417913 Simple_repeat  
   7036 Unknown  
     97 Unknown?  
   1769 rRNA  
      1 repClass  
   1340 scRNA  
   4386 snRNA  
   1481 srpRNA  
   2002 tRNA

(Dec 07 '10 at 22:55) nob_fj ♦

基本的にはそうだと思います。汎用的に使うためにはRepeatMasker自前でかけた方が楽かとは思いますが。

(Dec 08 '10 at 02:33) gaou ♦♦

UCSCのアノテーションがない生物種でも、RepeatMaskerベースの方法論であれば、ゲノムが決定しており、マッピング出来さえすれば、その情報を使用して、
1.genomeからマップされた箇所の配列切り出し
2.切り出した配列へ、Repbaseでリピートマスク
3.ヒットしたリピートがrRNA,tRNAのもののみ、除外
というステップがとれるという理解でよいでしょうか。
今回の対象が、ヒトなので、まずはUCSCアノテーションに依存した配列ベースの情報を介さない座標ベースのやり方でまずは試してみたいと考えております。

(Dec 08 '10 at 11:30) nob_fj ♦

教えていただいて恐縮ですが、現在cufflinksはまだ導入できておらず、 cufflinksベースの解析フローが出来たら再度gaouさんのフローを試してみる予定です。対応には暫くお時間いただきたいと思います。
現在のBioConductorのDEGseqを使用した既知遺伝子アノテーションをベースとしたスプライスジャンクションを考慮しない解析フローの場合は、アノテーション済みのUCSCから取得したリピートの座標情報を使用して BEDtoolsを使用するやり方の方が相性は良さそうです。

(Dec 08 '10 at 16:44) nob_fj ♦

showing 5 of 7 show all

あなたの回答

プレビューをトグルする

コミュニティー wiki

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

ngs ×47
rna-seq ×13
filtering ×1
rrna ×1
trna ×1

質問日: Dec 02 '10 at 21:42

閲覧数: 11,889 回

最終更新日: Dec 29 '10 at 14:13

RNA-SeqのrRNAの除去

この質問をフォローする

ただいまベータテスト運用中です。そのために通知無くコンテンツの変更やサービスの停止変更されることがあります。

世界に広がるQAサイト

関係した質問