イルミナ社鈴木様より以下のように情報提供いただきました。
---------------------------------------------------------------------------
GA, HiSeq で使っている CASAVA 1.8.2 で demultiplex した結果は以下のルール
---------------------------------------------------------------------------
<sample name>_<barcode sequence>_L<lane (0-padded to 3 digits)>_R<read
number>_<set number (0-padded to 3 digits>.fastq.gz
例
NA10831_ATCACG_L002_R1_001.fastq.gz
Sample name や barcode はサンプルシートで定義します。
1ファイルは400万配列ごとに gz 圧縮されます。
1ファイルごとに、Set number が 001, 002 といった形で増えていきます。
Rの次の数字が Read1, Read2 になります。
Sample name をお客様が決められるようになってしまいましたのでファイル名に関し
て右端を基準に処理いただくのが良いかと思います。
ご連絡いただいたパターンは、barcode を使わなかった場合に <barcode sequence>
が NoIndex となったものでございます。
---------------------------------------------------------------------------
MiSeqは以下のルール
---------------------------------------------------------------------------
例; s_G1_L001_R1_002.fastq
命名規則
s_Ga_Lb_Rc_d.fastq.gz とした場合;
Ga : 参照ゲノム番頭 (サンプルシート一番上に出現したゲノムが “G1”とな
ります)Lb : レーン番号 (MiSeqで現在1レーンみた
め、必ずL001になります)
Rc : リード番号 (リード1 は R1, リード2 は R2, インデクスリード は
I1 か I2 になります。
I2 Nextera dual index をお使いになりサンプルシートに2つのインデクス
を用いる際のみです)
d : タイルグループ番号
(現在1から6タイルでとられたデータを "001", 7 から 12タイル目のデー
タを "002”で分けています)
注意: 末尾の002などは便宜上 FASTQをタイルグループに分けた番号であり、
インデクス番号ではありません。
s_G0_ など、0番は基本的に不明 (Undetermined) なものが纏められたものて
゛す。
I1, I2 --- あいいち、あいに。英大文字の I に数字です。
これらの情報を受けて以下のように情報をまとめました。NGS Surfer's Wiki(fastq) ファイル名 - ペアエンド
その他のシーケンサーや過去のIllumina/solexaで例に当てはまらない例をご存知の方がおられましたら、
引き続きお知らせいただけますと幸いです。