初歩的な質問ですみません。 NGSデータの解析の勉強のためFASTQをDRAからとってこようと思っています。 しかしたとえばDRA000437というaccessionを開けると experimentの配下に6つのfastqが runの配下に6つのfastqがあります。 これらのうちどちらがNGSの出力なのでしょうか。 またDRA000437はDRP000446というSTUDYと関連があるようですが DRP000446を開けるとFASTQは6つしかありません。 このあたりの関係をおおざっぱにご指導いただけましたら幸いです。 DRAハンドブックも見ましたが よく理解できませんでした。すみません。 質問日 Nov 11 '14 at 11:44 deer |
それぞれのexperimentにfastqがあるようですね。こういうときはEBIのENAで見ると外観がつかみやすいです。 http://www.ebi.ac.uk/ena/data/view/DRA000437 そして必要なものをDRAからダウンロードするのです。 |
すみません。またわからなくなりました。 http://trace.ddbj.nig.ac.jp/DRASearch/run?acc=DRR001358 から DRX000955 というexperimentのfastqをとってきて bz2を解凍しましたが、 fastqファイルがひとつしか入っていません。 Illuminaをつかったと記載されていますが、であればpaired-endかmate-pairのはず(なのでファイルが2つ)なのではないでしょうか? CLC bioのImportでIlluminaを選んでも、ファイルが2個あるはずだということで インポートを開始することができません。 ひきつづきご指導のほど、お願いいたします。 回答日 Nov 11 '14 at 16:04 deer |
Illuminaであっても、singleで読む場合もあります。 公共DBからSRAデータをダウンロードする際には、そのメタデータも調べてみましょう。 今回の場合、Run "DRR001358" に紐付いている Experiment "DRX000955" に、 登録者がこのNGSデータを得た時の実験条件が記されています。 例えば、NCBI検索サイトの下記リンクに入り、 "Library" の右側にある (more...) をクリックしてみて下さい。 http://www.ncbi.nlm.nih.gov/sra/?term=DRX000955 下記の内容が示す通り、このSRAは、singleで読んだデータとして登録されています。 ---------------------------------------------------------- Library: P1-026C (less...) Strategy: WGS Source: METAGENOMIC Selection: RANDOM Layout: SINGLE <--- ここです。 Construction protocol: none provided Platform: Illumina (less...) Instrument model: Illumina Genome Analyzer II ---------------------------------------------------------- なお、プレフィックスが"DR"で始まるアクセッション番号は、DDBJ centerでの登録受付を意味します。 回答日 Dec 04 '14 at 18:02 DDBJ ♦ |
ご回答ありがとうございます。 ILLUMINAでも、シングルがあるのですね。 ではCLCにインポートする際も、ILLUMINAと指定はできないですね。。。。 回答日 Dec 04 '14 at 18:28 deer |
CLCはフラグメントデータも当然サパートされています。 CLCで取り込む際にpaired-endのチェックを外せばシングルで取り込めますよ。 回答日 Apr 07 '17 at 15:09 moss |