初学者的質問：paired end readのクオリティチェック

Bioinformaticsの初学者です。

微生物やウィルスのde novo assembleを目標としています。

Paired endが昨今主流であることを聞きました。ファイル名も*_1.fastq, *_2.fastqというようにpaired endであることが明確にわかるようにふってあるそうですね。

DRA等からpaired endなデータセットをダウンロードしてきて練習したいのですが、ダウンロードしてきて解凍したファイルのどれも、上記のような_1.fastq, _2.fastqというファイル名になっていません。ダウンロードしてきたファイルが不適切なのでしょうか？　適切なファイルがありましたらaccession numberをご紹介ください。

また、quality checkでassemble時に捨てるReadはpairとして捨てないといけないということですが、いかがでしょうか？ Linuxでやるか、CLCのような一体型パッケージでやるか未定ですが、推奨などあればお願いいたします。

質問日 Sep 16 '14 at 11:02

deer
1●5●7

One Answer:

回答順最新支持されている順

以下のデータにFile 1とFile 2があります。 http://www.ebi.ac.uk/ena/data/view/ERP005860

論文は http://dx.doi.org/10.1038/nature13568 です。quality controlでやったことも書いてあります。

回答日 Sep 16 '14 at 16:01

aki
86●1

akiさん、すばらしいデータを教えていただきまことにありがとうございました。１日かかりましたがFile 1とFile 2を一つずつダウンロードできました。このENAのサイトでは単なるFastqとSubmitted Fastqの区別があるようですね。違いをご存じでしたら教えてください。

またENAのサイトからGalaxyというサイトに飛ばしてそこで解析をさせることもできるようですね。これについては別のスレッドを立ててご意見を聞こうかとも思いますが、もし試されたことおありでしたらご経験をお聞かせください。

(Sep 18 '14 at 18:27) deer

あなたの回答

プレビューをトグルする

コミュニティー wiki

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

check ×1
end ×1
paired ×1
quality ×1

質問日: Sep 16 '14 at 11:02

閲覧数: 3,568 回

最終更新日: Sep 18 '14 at 18:27

初学者的質問：paired end readのクオリティチェック

この質問をフォローする

ただいまベータテスト運用中です。そのために通知無くコンテンツの変更やサービスの停止変更されることがあります。

世界に広がるQAサイト

関係した質問