Bioinformaticsの初学者です。 微生物やウィルスのde novo assembleを目標としています。 Paired endが昨今主流であることを聞きました。ファイル名も*_1.fastq, *_2.fastqというようにpaired endであることが明確にわかるようにふってあるそうですね。 DRA等からpaired endなデータセットをダウンロードしてきて練習したいのですが、ダウンロードしてきて解凍したファイルのどれも、上記のような_1.fastq, _2.fastqというファイル名になっていません。ダウンロードしてきたファイルが不適切なのでしょうか? 適切なファイルがありましたらaccession numberをご紹介ください。 また、quality checkでassemble時に捨てるReadはpairとして捨てないといけないということですが、いかがでしょうか? Linuxでやるか、CLCのような一体型パッケージでやるか未定ですが、推奨などあればお願いいたします。 質問日 Sep 16 '14 at 11:02 deer |
以下のデータにFile 1とFile 2があります。 http://www.ebi.ac.uk/ena/data/view/ERP005860 論文は http://dx.doi.org/10.1038/nature13568 です。quality controlでやったことも書いてあります。 回答日 Sep 16 '14 at 16:01 aki akiさん、 すばらしいデータを教えていただきまことにありがとうございました。1日かかりましたがFile 1とFile 2を一つずつダウンロードできました。このENAのサイトでは単なるFastqとSubmitted Fastqの区別があるようですね。違いをご存じでしたら教えてください。 またENAのサイトからGalaxyというサイトに飛ばしてそこで解析をさせることもできるようですね。これについては別のスレッドを立ててご意見を聞こうかとも思いますが、もし試されたことおありでしたらご経験をお聞かせください。
(Sep 18 '14 at 18:27)
deer
|