ログイン 概要 よくある質問

Bioinformaticsの初学者です。

微生物やウィルスのde novo assembleを目標としています。

Paired endが昨今主流であることを聞きました。ファイル名も*_1.fastq, *_2.fastqというようにpaired endであることが明確にわかるようにふってあるそうですね。

DRA等からpaired endなデータセットをダウンロードしてきて練習したいのですが、ダウンロードしてきて解凍したファイルのどれも、上記のような_1.fastq, _2.fastqというファイル名になっていません。ダウンロードしてきたファイルが不適切なのでしょうか? 適切なファイルがありましたらaccession numberをご紹介ください。

また、quality checkでassemble時に捨てるReadはpairとして捨てないといけないということですが、いかがでしょうか? Linuxでやるか、CLCのような一体型パッケージでやるか未定ですが、推奨などあればお願いいたします。

質問日 Sep 16 '14 at 11:02

deer's gravatar image

deer
157


以下のデータにFile 1とFile 2があります。 http://www.ebi.ac.uk/ena/data/view/ERP005860

論文は http://dx.doi.org/10.1038/nature13568 です。quality controlでやったことも書いてあります。

回答日 Sep 16 '14 at 16:01

aki's gravatar image

aki
861

akiさん、 すばらしいデータを教えていただきまことにありがとうございました。1日かかりましたがFile 1とFile 2を一つずつダウンロードできました。このENAのサイトでは単なるFastqとSubmitted Fastqの区別があるようですね。違いをご存じでしたら教えてください。

またENAのサイトからGalaxyというサイトに飛ばしてそこで解析をさせることもできるようですね。これについては別のスレッドを立ててご意見を聞こうかとも思いますが、もし試されたことおありでしたらご経験をお聞かせください。

(Sep 18 '14 at 18:27) deer deer's gravatar image
あなたの回答
プレビューをトグルする

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

×1
×1
×1
×1

質問日: Sep 16 '14 at 11:02

閲覧数: 3,568 回

最終更新日: Sep 18 '14 at 18:27

関係した質問

powered by OSQA