ログイン 概要 よくある質問

いつも大変お世話になっております。

表題の内容についてお伺いしたいのですが、HiSeq2500では、1runあたり600Gbaseのデータが出力できるとのことで、 仮に600Gbaseを出力したときのfastqファイルのデータ容量は、大体何Gbyteほどになるでしょうか。

貴重なご経験からの情報と存じますが、どうぞよろしくお願い申し上げます。

質問日 Jan 07 '14 at 17:40

suimye's gravatar image

suimye
2961515

edited Jan 07 '14 at 21:50

mn3's gravatar image

mn3 ♦♦
5154922


gzで圧縮して100bp paired-endの1レーンfastqファイルが35GB程度。
HiSeq2500は8レーン x 2ありますが、2レーンはcontrolに使用される場合が多いので実質自分のデータは14レーンとすると35GB x 14 = 490GBぐらいですかね。
圧縮しないと(解凍すると)3倍弱程度の大きさになりますので、14レーン分なら1.5TB弱ぐらいでしょうか。
アバウトですがご参考まで。

回答日 Jan 07 '14 at 18:41

38brain's gravatar image

38brain
13133

ごっつあんでええええすう!!!

(Jan 07 '14 at 19:17) suimye suimye's gravatar image

DRASearchからたどれるHiSeq2500登録(全1,102件)の内、 配列ファイルにアクセス可能な(713件の)bz2圧縮時のファイルサイズと塩基数の関係を 散布図にして、近似直線を描いたところ alt text

[ファイルサイズ] = 0.727 x [塩基数] - 6E+07

bz2の圧縮率に関しては、網羅的には調べていませんが、 一例ERR206767を見ると alt text

(58.1 / 9.35)[Gbyte/Gbyte] = 6.21

なので、非圧縮時の塩基あたりのファイルサイズは以下になります。

(58.1 / 9.35)[Gbyte/Gbyte] x 0.727[byte/base] = 4.52[byte/base]

なので、600G塩基だと

  • bz2圧縮時は 436Gバイト
  • 非圧縮fastqは 2,712Gバイト でしょうか。 (バイト計算は1024でなく1000でやってます。)

尚、細かい話ですが、以下の3件は散布図描画時に 大きく外れ値となり、近似直線の算出に悪影響だったので除外しました。 ERR309932,ERR309933,ERR309934

ちなみにご存知とは思いますが、 塩基あたりのファイルサイズは、 固定塩基長のイルミナシリーズでは、 配列IDの長さしだいで、 1塩基あたり2バイト(塩基+品質情報)+(リードあたりの配列IDのサイズ/リード長)

公開データは、生データよりSRR番号が付く分、若干大きくなります。

可変長の454や、Ionなどは、長さの分布等によっても変わるはずです。

プラットフォームを区別せずに、非圧縮のfastqのサイズ等を見てみたグラフを 以下に乗せたのでご興味あればご参照ください。 NGS Surfer's Wiki(配列ファイルサイズの見積もり)

回答日 Jan 08 '14 at 11:33

nob_fj's gravatar image

nob_fj ♦
50761328

分かりやすく素晴らしい見積もりです。 これは私のみならず他の方々にも大変参考になる資料と思います。 ありがとうございました。

(Jan 08 '14 at 12:59) suimye suimye's gravatar image
あなたの回答
プレビューをトグルする

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

×3
×1
×1

質問日: Jan 07 '14 at 17:40

閲覧数: 2,526 回

最終更新日: Jan 08 '14 at 12:59

powered by OSQA