Answer by nob_fj

nob_fj — Wed, 08 Jan 2014 11:33:20 +0900

DRASearchからたどれるHiSeq2500登録(全1,102件)の内、配列ファイルにアクセス可能な(713件の)bz2圧縮時のファイルサイズと塩基数の関係を散布図にして、近似直線を描いたところ

[ファイルサイズ] = 0.727 x [塩基数] - 6E+07

bz2の圧縮率に関しては、網羅的には調べていませんが、一例ERR206767を見ると

(58.1 / 9.35)[Gbyte/Gbyte] = 6.21

なので、非圧縮時の塩基あたりのファイルサイズは以下になります。

(58.1 / 9.35)[Gbyte/Gbyte] x 0.727[byte/base] = 4.52[byte/base]

なので、600G塩基だと

bz2圧縮時は 436Gバイト
非圧縮fastqは 2,712Gバイトでしょうか。 (バイト計算は1024でなく1000でやってます。)

尚、細かい話ですが、以下の3件は散布図描画時に大きく外れ値となり、近似直線の算出に悪影響だったので除外しました。 ERR309932,ERR309933,ERR309934

ちなみにご存知とは思いますが、塩基あたりのファイルサイズは、固定塩基長のイルミナシリーズでは、配列IDの長さしだいで、 1塩基あたり2バイト(塩基+品質情報)+(リードあたりの配列IDのサイズ/リード長)

公開データは、生データよりSRR番号が付く分、若干大きくなります。

可変長の454や、Ionなどは、長さの分布等によっても変わるはずです。

プラットフォームを区別せずに、非圧縮のfastqのサイズ等を見てみたグラフを以下に乗せたのでご興味あればご参照ください。 NGS Surfer's Wiki(配列ファイルサイズの見積もり)

Answer by 38brain

38brain — Tue, 07 Jan 2014 18:41:05 +0900

gzで圧縮して100bp paired-endの1レーンfastqファイルが35GB程度。
HiSeq2500は8レーン x 2ありますが、2レーンはcontrolに使用される場合が多いので実質自分のデータは14レーンとすると35GB x 14 = 490GBぐらいですかね。
圧縮しないと（解凍すると）3倍弱程度の大きさになりますので、14レーン分なら1.5TB弱ぐらいでしょうか。
アバウトですがご参考まで。

Answers to: 高速シーケンサの出力データ容量について

Answer by nob_fj

Answer by 38brain