<?xml version="1.0" encoding="utf-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>Answers to: RNA-SeqのrRNAの除去</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB</link><description>&lt;p&gt;mRNA-Seqの情報解析で、なぜかrRNAが混入することが多いようですが、
これを除去するのに使用するrRNA、tRNAの情報はどこから入手するのが一般的でしょうか。
もし自前で除去スクリプトを作成する必要がある場合は、rRNA、tRNAの座標情報を&lt;a href="http://genome.ucsc.edu/"&gt;UCSC&lt;/a&gt;のどこかから入手し、
マッピング結果中のrRNA、tRNAにヒットした結果レコードを除外するなどの
対応を考えていますが、もっと効率的なツール・方法があったら教えてください。&lt;/p&gt;</description><atom:link href="http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB" rel="self"></atom:link><language>ja</language><lastBuildDate>Wed, 29 Dec 2010 14:13:18 +0900</lastBuildDate><item><title>Comment by nob_fj on nob_fj's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#247</link><description>&lt;p&gt;私自身が確認したわけではないですが、cufflinksを使用したフローでもTopHatが出力するSAMを上記処理でフィルタリング可能という話を聞きましたので、質問は一旦閉じさせていただきます。もし間違っていたら、質問の再開をお願いします。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Wed, 29 Dec 2010 14:13:18 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#247</guid></item><item><title>Comment by nob_fj on nob_fj's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#150</link><description>&lt;p&gt;hacchyさんgaouさんからいただいたヒントを元に、
BAMファイル中のrRNA、tRNAを除去する方法が分かりました。
以下のwikiにまとめてあります。&lt;/p&gt;
&lt;p&gt;&lt;a href="https://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=rRNA%2CtRNA%E9%99%A4%E5%8E%BBforBAM%E3%83%95%E3%83%AD%E3%83%BC"&gt;rRNA,tRNA除去forBAMフロー&lt;/a&gt; &lt;/p&gt;
&lt;p&gt;&lt;a href="https://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=rRNA%2CtRNA%E3%81%AE%E5%BA%A7%E6%A8%99%E6%83%85%E5%A0%B1%E3%82%92BED%E3%83%95%E3%82%A9%E3%83%BC%E3%83%9E%E3%83%83%E3%83%88%E3%81%A7UCSC+Table+Browser%E3%81%8B%E3%82%89%E5%8F%96%E5%BE%97%E3%81%99%E3%82%8B&amp;amp;no_bl=y"&gt;rRNA,tRNAの座標情報をBEDフォーマットでUCSC Table Browserから取得する&lt;/a&gt; &lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Wed, 08 Dec 2010 20:25:19 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#150</guid></item><item><title>Comment by nob_fj on gaou's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#149</link><description>&lt;p&gt;教えていただいて恐縮ですが、現在cufflinksはまだ導入できておらず、
cufflinksベースの解析フローが出来たら再度gaouさんのフローを試してみる予定です。対応には暫くお時間いただきたいと思います。&lt;br&gt;
現在のBioConductorのDEGseqを使用した既知遺伝子アノテーションをベースとしたスプライスジャンクションを考慮しない解析フローの場合は、アノテーション済みのUCSCから取得したリピートの座標情報を使用して
BEDtoolsを使用するやり方の方が相性は良さそうです。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Wed, 08 Dec 2010 16:44:30 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#149</guid></item><item><title>Comment by nob_fj on gaou's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#147</link><description>&lt;p&gt;UCSCのアノテーションがない生物種でも、RepeatMaskerベースの方法論であれば、ゲノムが決定しており、マッピング出来さえすれば、その情報を使用して、&lt;br&gt;
1.genomeからマップされた箇所の配列切り出し&lt;br&gt;
2.切り出した配列へ、Repbaseでリピートマスク&lt;br&gt;
3.ヒットしたリピートがrRNA,tRNAのもののみ、除外&lt;br&gt;
というステップがとれるという理解でよいでしょうか。&lt;br&gt;
今回の対象が、ヒトなので、
まずはUCSCアノテーションに依存した配列ベースの情報を介さない
座標ベースのやり方でまずは試してみたいと考えております。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Wed, 08 Dec 2010 11:30:42 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#147</guid></item><item><title>Comment by gaou on gaou's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#146</link><description>&lt;p&gt;基本的にはそうだと思います。汎用的に使うためにはRepeatMasker自前でかけた方が楽かとは思いますが。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">gaou</dc:creator><pubDate>Wed, 08 Dec 2010 02:33:34 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#146</guid></item><item><title>Comment by nob_fj on gaou's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#144</link><description>&lt;pre&gt;$ awk '{print $12}' allFieldsFromSelectedTable.txt | sort | uniq -c  
 461751 DNA  
   1881 DNA?  
1498690 LINE  
     51 LINE?  
 717656 LTR  
    122 LTR?  
 371543 Low_complexity  
   3733 Other  
   2236 RC  
    729 RNA  
1793723 SINE  
    425 SINE?  
   9566 Satellite  
 417913 Simple_repeat  
   7036 Unknown  
     97 Unknown?  
   1769 rRNA  
      1 repClass  
   1340 scRNA  
   4386 snRNA  
   1481 srpRNA  
   2002 tRNA
&lt;/pre&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Tue, 07 Dec 2010 22:55:54 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#144</guid></item><item><title>Comment by nob_fj on gaou's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#143</link><description>&lt;p&gt;gaouさん もしご存知でしたら
Repbaseから直接取得したわけではないのですが、
UCSCのTable browserで
"Variation and Repeats"のカテゴリに"RepeatMasker"という
トラックがあり、このカラムの
"repClass"のカラムが以下のような構成になっており、
このうちtRNA,rRNAのもののみ抜き出せば、
gaouさんのフィルタリング対象と同じになるのではないかと
思いますが、違いますでしょうか。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Tue, 07 Dec 2010 22:55:38 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#143</guid></item><item><title>Comment by gaou on gaou's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#137</link><description>&lt;p&gt;クエリはcufflinksをかけたあと、gtfの座標をもとに簡単なスクリプトでtranscriptのfastaファイルを作って使っています。Repeatmaskerのリファレンスは普通にRepbaseで、いろんなものがヒットしますが、RNAに該当するものだけを除去する（こちらも簡単なスクリプト、というかgrep）ようにしています。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">gaou</dc:creator><pubDate>Fri, 03 Dec 2010 17:50:27 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#137</guid></item><item><title>Comment by nob_fj on gaou's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#136</link><description>&lt;p&gt;素人質問で申し訳ないですが、RepeatMaskerにかける際の、クエリとリファレンスはどうなるのでしょうか。&lt;br&gt;
クエリ-&amp;gt;ヒットのあった遺伝子の配列?&lt;br&gt;
リファレンス-&amp;gt;rRNA,tRNAの配列リスト?&lt;br&gt;
でしょうか。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Fri, 03 Dec 2010 17:36:22 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#136</guid></item><item><title>Comment by nob_fj on hacchy's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#135</link><description>&lt;p&gt;申し訳ないですが、Ensembl APIですが、サーバ環境が直接外に出られないので、ちょっと敷居が高そうです。ローカルにデータをもって来てMySQL dbを構築する手もありますが、このためだけに行うにはちょっと作業負荷が高そうなので、他の方法を探したいと思います。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Fri, 03 Dec 2010 17:31:48 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#135</guid></item><item><title>Comment by nob_fj on nob_fj's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#134</link><description>&lt;p&gt;tRNAの座標に関しては、&lt;a href="http://genome.ucsc.edu/cgi-bin/hgTables?command=start"&gt;UCSCのTable browser&lt;/a&gt;でgroup="Genes and Gene Prediction Tracks"のtrack="tRNA Genes"からBEDフォーマットで入出できそうです。
rRNAがどこにあるかはまだ分かっていません。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Fri, 03 Dec 2010 17:29:27 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#134</guid></item><item><title>Answer by gaou</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB/133</link><description>&lt;p&gt;私はお手軽にはとりあえず&lt;a href="http://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=Cufflinks"&gt;Cufflinks&lt;/a&gt;かけてしまって、予測されたtranscriptに対して&lt;a href="http://www.repeatmasker.org/"&gt;RepeatMasker&lt;/a&gt;かけちゃったりしています。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">gaou</dc:creator><pubDate>Fri, 03 Dec 2010 12:17:56 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB/133</guid></item><item><title>Comment by nob_fj on nob_fj's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#130</link><description>&lt;p&gt;どちらがやりやすいか検討してから対応を行ってみます。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Thu, 02 Dec 2010 22:41:22 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#130</guid></item><item><title>Answer by nob_fj</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB/129</link><description>&lt;p&gt;良く調べたら、&lt;a href="http://seqanswers.com/forums/showthread.php?t=5947"&gt;同じ質問がSEQAnswersにもありました&lt;/a&gt;。
こちらの回答では、&lt;a href="http://code.google.com/p/bedtools/"&gt;BEDtools&lt;/a&gt;を使用するようですが、あらかじめBED形式のrRNA,tRNA座標情報を用意しておく必要があるようです。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Thu, 02 Dec 2010 22:40:31 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB/129</guid></item><item><title>Comment by nob_fj on hacchy's 回答</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#128</link><description>&lt;p&gt;生物種はヒトなので、Ensembl APIを試してみます。
できたらやり方をwikiにアップしようと思います。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">nob_fj</dc:creator><pubDate>Thu, 02 Dec 2010 22:32:41 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB#128</guid></item><item><title>Answer by hacchy</title><link>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB/127</link><description>&lt;p&gt;生物種はマウスでしょうか？
一般的かどうかは分かりませんが，私は &lt;a href="http://uswest.ensembl.org/info/docs/api/index.html"&gt;Ensembl API&lt;/a&gt; を使ってアノテーションの取得をしています。
&lt;a href="http://uswest.ensembl.org/index.html"&gt;Ensembl Genome Browser&lt;/a&gt; にある全てのアノテーションを柔軟に取得することができるので，tRNA の位置情報を取得したり，その配列を取得したり，mRNA-seq データから遺伝子ごとの RPKM を計算するときに必須なエキソンの位置を取得したり，という処理を短いコードで書けるので，愛用してます。&lt;/p&gt;
&lt;p&gt;ヒト/マウスであればアノテーションはある程度しっかりしていると思いますが，Ensembl 生物種の中にも tRNA のアノテーションが足りなかったりする場合もあるようです。そのような場合は，&lt;a href="http://searchlauncher.bcm.tmc.edu/seq-search/Options/trna-se.html"&gt;tRNA-SE&lt;/a&gt; などを自前で動かして，ncRNA 領域の予測を行うと良いそうです。
また，Ensembl にないような生物種は，GenBank ファイルか GFF ファイルがある場合が多く，BioPerl ベースのパーサを作って情報を取得しています。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">hacchy</dc:creator><pubDate>Thu, 02 Dec 2010 22:19:14 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/125/rna-seq%E3%81%AErrna%E3%81%AE%E9%99%A4%E5%8E%BB/127</guid></item></channel></rss>