良く調べたら、同じ質問がSEQAnswersにもありました。 こちらの回答では、BEDtoolsを使用するようですが、あらかじめBED形式のrRNA,tRNA座標情報を用意しておく必要があるようです。 どちらがやりやすいか検討してから対応を行ってみます。
(Dec 02 '10 at 22:41)
nob_fj ♦
tRNAの座標に関しては、UCSCのTable browserでgroup="Genes and Gene Prediction Tracks"のtrack="tRNA Genes"からBEDフォーマットで入出できそうです。 rRNAがどこにあるかはまだ分かっていません。
(Dec 03 '10 at 17:29)
nob_fj ♦
hacchyさんgaouさんからいただいたヒントを元に、 BAMファイル中のrRNA、tRNAを除去する方法が分かりました。 以下のwikiにまとめてあります。
(Dec 08 '10 at 20:25)
nob_fj ♦
私自身が確認したわけではないですが、cufflinksを使用したフローでもTopHatが出力するSAMを上記処理でフィルタリング可能という話を聞きましたので、質問は一旦閉じさせていただきます。もし間違っていたら、質問の再開をお願いします。
(Dec 29 '10 at 14:13)
nob_fj ♦
|
生物種はマウスでしょうか? 一般的かどうかは分かりませんが,私は Ensembl API を使ってアノテーションの取得をしています。 Ensembl Genome Browser にある全てのアノテーションを柔軟に取得することができるので,tRNA の位置情報を取得したり,その配列を取得したり,mRNA-seq データから遺伝子ごとの RPKM を計算するときに必須なエキソンの位置を取得したり,という処理を短いコードで書けるので,愛用してます。 ヒト/マウスであればアノテーションはある程度しっかりしていると思いますが,Ensembl 生物種の中にも tRNA のアノテーションが足りなかったりする場合もあるようです。そのような場合は,tRNA-SE などを自前で動かして,ncRNA 領域の予測を行うと良いそうです。 また,Ensembl にないような生物種は,GenBank ファイルか GFF ファイルがある場合が多く,BioPerl ベースのパーサを作って情報を取得しています。 生物種はヒトなので、Ensembl APIを試してみます。 できたらやり方をwikiにアップしようと思います。
(Dec 02 '10 at 22:32)
nob_fj ♦
申し訳ないですが、Ensembl APIですが、サーバ環境が直接外に出られないので、ちょっと敷居が高そうです。ローカルにデータをもって来てMySQL dbを構築する手もありますが、このためだけに行うにはちょっと作業負荷が高そうなので、他の方法を探したいと思います。
(Dec 03 '10 at 17:31)
nob_fj ♦
|
私はお手軽にはとりあえずCufflinksかけてしまって、予測されたtranscriptに対してRepeatMaskerかけちゃったりしています。 素人質問で申し訳ないですが、RepeatMaskerにかける際の、クエリとリファレンスはどうなるのでしょうか。
(Dec 03 '10 at 17:36)
nob_fj ♦
クエリはcufflinksをかけたあと、gtfの座標をもとに簡単なスクリプトでtranscriptのfastaファイルを作って使っています。Repeatmaskerのリファレンスは普通にRepbaseで、いろんなものがヒットしますが、RNAに該当するものだけを除去する(こちらも簡単なスクリプト、というかgrep)ようにしています。
(Dec 03 '10 at 17:50)
gaou ♦♦
gaouさん もしご存知でしたら Repbaseから直接取得したわけではないのですが、 UCSCのTable browserで "Variation and Repeats"のカテゴリに"RepeatMasker"という トラックがあり、このカラムの "repClass"のカラムが以下のような構成になっており、 このうちtRNA,rRNAのもののみ抜き出せば、 gaouさんのフィルタリング対象と同じになるのではないかと 思いますが、違いますでしょうか。
(Dec 07 '10 at 22:55)
nob_fj ♦
$ awk '{print $12}' allFieldsFromSelectedTable.txt | sort | uniq -c 461751 DNA 1881 DNA? 1498690 LINE 51 LINE? 717656 LTR 122 LTR? 371543 Low_complexity 3733 Other 2236 RC 729 RNA 1793723 SINE 425 SINE? 9566 Satellite 417913 Simple_repeat 7036 Unknown 97 Unknown? 1769 rRNA 1 repClass 1340 scRNA 4386 snRNA 1481 srpRNA 2002 tRNA
(Dec 07 '10 at 22:55)
nob_fj ♦
基本的にはそうだと思います。汎用的に使うためにはRepeatMasker自前でかけた方が楽かとは思いますが。
(Dec 08 '10 at 02:33)
gaou ♦♦
UCSCのアノテーションがない生物種でも、RepeatMaskerベースの方法論であれば、ゲノムが決定しており、マッピング出来さえすれば、その情報を使用して、
(Dec 08 '10 at 11:30)
nob_fj ♦
教えていただいて恐縮ですが、現在cufflinksはまだ導入できておらず、
cufflinksベースの解析フローが出来たら再度gaouさんのフローを試してみる予定です。対応には暫くお時間いただきたいと思います。
(Dec 08 '10 at 16:44)
nob_fj ♦
showing 5 of 7
show all
|