DRASearchからたどれるHiSeq2500登録(全1,102件)の内、 配列ファイルにアクセス可能な(713件の)bz2圧縮時のファイルサイズと塩基数の関係を 散布図にして、近似直線を描いたところ [ファイルサイズ] = 0.727 x [塩基数] - 6E+07 bz2の圧縮率に関しては、網羅的には調べていませんが、 一例ERR206767を見ると (58.1 / 9.35)[Gbyte/Gbyte] = 6.21 なので、非圧縮時の塩基あたりのファイルサイズは以下になります。 (58.1 / 9.35)[Gbyte/Gbyte] x 0.727[byte/base] = 4.52[byte/base] なので、600G塩基だと
尚、細かい話ですが、以下の3件は散布図描画時に 大きく外れ値となり、近似直線の算出に悪影響だったので除外しました。 ERR309932,ERR309933,ERR309934 ちなみにご存知とは思いますが、 塩基あたりのファイルサイズは、 固定塩基長のイルミナシリーズでは、 配列IDの長さしだいで、 1塩基あたり2バイト(塩基+品質情報)+(リードあたりの配列IDのサイズ/リード長) 公開データは、生データよりSRR番号が付く分、若干大きくなります。 可変長の454や、Ionなどは、長さの分布等によっても変わるはずです。 プラットフォームを区別せずに、非圧縮のfastqのサイズ等を見てみたグラフを 以下に乗せたのでご興味あればご参照ください。 NGS Surfer's Wiki(配列ファイルサイズの見積もり) 回答日 Jan 08 '14 at 11:33 nob_fj ♦ 分かりやすく素晴らしい見積もりです。 これは私のみならず他の方々にも大変参考になる資料と思います。 ありがとうございました。
(Jan 08 '14 at 12:59)
suimye
|