ペアエンドのFASTQの命名の選択肢

Question

開発中のツールで、ユーザーから指定されたディレクトリ内のペアエンドのFASTQファイルのペアの1番目と2番目のファイルを自動で認識させたいので、ファイル命名のパターンを把握したいと思っています。

どこかにまとまった情報源などあったりしますでしょうか？
あるいは、以下の例では対応できない例等ご存知の方はお知らせ願えませんでしょうか。

認識正規表現パターン1

ペア1番目:.*_1.(fastq|fq|txt)
ペア2番目:.*_2.(fastq|fq|txt)

例：DRA/SRA/ERAなどの公開データ

ペア1番目:SRR0XXXXX_1.fastq
ペア2番目:SRR0XXXXX_2.fastq
ペア外:SRR0XXXXX.fastq

認識正規表現パターン2

ペア1番目:.*_1_sequence.(fastq|fq|txt)
ペア2番目:.*_2_sequence.(fastq|fq|txt)

例：GA時代Illumina/CASAVAの出力と、その亜種

ペア1番目:s_1_1_sequence.txt
ペア2番目:s_1_2_sequence.txt

認識正規表現パターン3

ペア1番目:.*_R1_\d\d\d.(fastq|fq|txt)
ペア2番目:.*_R2_\d\d\d.(fastq|fq|txt)

例：最近のIllumina/CASAVAのデマルチプレックス後

ペア1番目:SAMPLE1_ATCACG_L002_R1_001.fastq
ペア2番目:SAMPLE1_ATCACG_L002_R2_001.fastq

(余談ですが、LSQA上で'_'を同じ行に書くと、イタリックとみなされてしまい、\_でエスケープする必要があるようですね。)

Answer 1

イルミナ社鈴木様より以下のように情報提供いただきました。

---------------------------------------------------------------------------

GA, HiSeq で使っている CASAVA 1.8.2 で demultiplex した結果は以下のルール
---------------------------------------------------------------------------
<sample name>_<barcode sequence>_L<lane (0-padded to 3 digits)>_R<read
number>_<set number (0-padded to 3 digits>.fastq.gz

例

NA10831_ATCACG_L002_R1_001.fastq.gz

Sample name や barcode はサンプルシートで定義します。
1ファイルは400万配列ごとに gz 圧縮されます。
1ファイルごとに、Set number が 001, 002 といった形で増えていきます。

Rの次の数字が Read1, Read2 になります。
Sample name をお客様が決められるようになってしまいましたのでファイル名に関し
て右端を基準に処理いただくのが良いかと思います。

ご連絡いただいたパターンは、barcode を使わなかった場合に <barcode sequence>
が NoIndex となったものでございます。

---------------------------------------------------------------------------

MiSeqは以下のルール
---------------------------------------------------------------------------
例; s_G1_L001_R1_002.fastq

命名規則

    s_Ga_Lb_Rc_d.fastq.gz とした場合;

Ga : 参照ゲノム番頭 (サンプルシート一番上に出現したゲノムが “G1”とな
ります)Lb : レーン番号 (MiSeqで現在1レーンみた
め、必ずL001になります)
Rc : リード番号 (リード1 は R1, リード2 は R2, インデクスリード は
I1 か I2 になります。
     I2 Nextera dual index をお使いになりサンプルシートに2つのインデクス
を用いる際のみです) 
d  : タイルグループ番号
     (現在1から6タイルでとられたデータを "001", 7 から 12タイル目のデー
タを "002”で分けています)

注意: 末尾の002などは便宜上 FASTQをタイルグループに分けた番号であり、
インデクス番号ではありません。

      s_G0_ など、0番は基本的に不明 (Undetermined) なものが纏められたものて
゛す。 
      I1, I2 --- あいいち、あいに。英大文字の I に数字です。

これらの情報を受けて以下のように情報をまとめました。NGS Surfer's Wiki(fastq) ファイル名 - ペアエンドその他のシーケンサーや過去のIllumina/solexaで例に当てはまらない例をご存知の方がおられましたら、引き続きお知らせいただけますと幸いです。

ペアエンドのFASTQの命名の選択肢

認識正規表現パターン1

例：DRA/SRA/ERAなどの公開データ

認識正規表現パターン2

例：GA時代Illumina/CASAVAの出力と、その亜種

認識正規表現パターン3

例：最近のIllumina/CASAVAのデマルチプレックス後

この質問をフォローする

ただいまベータテスト運用中です。そのために通知無くコンテンツの変更やサービスの停止変更されることがあります。

世界に広がるQAサイト

関係した質問