いつも大変お世話になっております。 表題の内容についてお伺いしたいのですが、HiSeq2500では、1runあたり600Gbaseのデータが出力できるとのことで、 仮に600Gbaseを出力したときのfastqファイルのデータ容量は、大体何Gbyteほどになるでしょうか。 貴重なご経験からの情報と存じますが、どうぞよろしくお願い申し上げます。 |
DRASearchからたどれるHiSeq2500登録(全1,102件)の内、
配列ファイルにアクセス可能な(713件の)bz2圧縮時のファイルサイズと塩基数の関係を
散布図にして、近似直線を描いたところ
[ファイルサイズ] = 0.727 x [塩基数] - 6E+07 bz2の圧縮率に関しては、網羅的には調べていませんが、
一例ERR206767を見ると
(58.1 / 9.35)[Gbyte/Gbyte] = 6.21 なので、非圧縮時の塩基あたりのファイルサイズは以下になります。 (58.1 / 9.35)[Gbyte/Gbyte] x 0.727[byte/base] = 4.52[byte/base] なので、600G塩基だと
尚、細かい話ですが、以下の3件は散布図描画時に 大きく外れ値となり、近似直線の算出に悪影響だったので除外しました。 ERR309932,ERR309933,ERR309934 ちなみにご存知とは思いますが、 塩基あたりのファイルサイズは、 固定塩基長のイルミナシリーズでは、 配列IDの長さしだいで、 1塩基あたり2バイト(塩基+品質情報)+(リードあたりの配列IDのサイズ/リード長) 公開データは、生データよりSRR番号が付く分、若干大きくなります。 可変長の454や、Ionなどは、長さの分布等によっても変わるはずです。 プラットフォームを区別せずに、非圧縮のfastqのサイズ等を見てみたグラフを 以下に乗せたのでご興味あればご参照ください。 NGS Surfer's Wiki(配列ファイルサイズの見積もり) |