ログイン 概要 よくある質問

開発中のツールで、ユーザーから指定されたディレクトリ内の ペアエンドのFASTQファイルの ペアの1番目と2番目のファイルを自動で認識させたいので、 ファイル命名のパターンを把握したいと思っています。

  • どこかにまとまった情報源などあったりしますでしょうか?
  • あるいは、以下の例では対応できない例等ご存知の方はお知らせ願えませんでしょうか。

認識正規表現パターン1

  1. ペア1番目:.*_1.(fastq|fq|txt)
  2. ペア2番目:.*_2.(fastq|fq|txt)

例:DRA/SRA/ERAなどの公開データ

  1. ペア1番目:SRR0XXXXX_1.fastq
  2. ペア2番目:SRR0XXXXX_2.fastq
  3. ペア外:SRR0XXXXX.fastq

認識正規表現パターン2

  1. ペア1番目:.*_1_sequence.(fastq|fq|txt)
  2. ペア2番目:.*_2_sequence.(fastq|fq|txt)

例:GA時代Illumina/CASAVAの出力と、その亜種

  1. ペア1番目:s_1_1_sequence.txt
  2. ペア2番目:s_1_2_sequence.txt

認識正規表現パターン3

  1. ペア1番目:.*_R1_\d\d\d.(fastq|fq|txt)
  2. ペア2番目:.*_R2_\d\d\d.(fastq|fq|txt)

例:最近のIllumina/CASAVAのデマルチプレックス後

  1. ペア1番目:SAMPLE1_ATCACG_L002_R1_001.fastq
  2. ペア2番目:SAMPLE1_ATCACG_L002_R2_001.fastq

(余談ですが、LSQA上で'_'を同じ行に書くと、イタリックとみなされてしまい、\_でエスケープする必要があるようですね。)

質問日 Mar 23 '12 at 19:56

nob_fj's gravatar image

nob_fj ♦
50761328

edited Mar 23 '12 at 19:57


イルミナ社鈴木様より以下のように情報提供いただきました。

---------------------------------------------------------------------------

GA, HiSeq で使っている CASAVA 1.8.2 で demultiplex した結果は以下のルール
---------------------------------------------------------------------------
<sample name>_<barcode sequence>_L<lane (0-padded to 3 digits)>_R<read
number>_<set number (0-padded to 3 digits>.fastq.gz

例

NA10831_ATCACG_L002_R1_001.fastq.gz

Sample name や barcode はサンプルシートで定義します。
1ファイルは400万配列ごとに gz 圧縮されます。
1ファイルごとに、Set number が 001, 002 といった形で増えていきます。

Rの次の数字が Read1, Read2 になります。
Sample name をお客様が決められるようになってしまいましたのでファイル名に関し
て右端を基準に処理いただくのが良いかと思います。

ご連絡いただいたパターンは、barcode を使わなかった場合に <barcode sequence>
が NoIndex となったものでございます。

---------------------------------------------------------------------------

MiSeqは以下のルール
---------------------------------------------------------------------------
例; s_G1_L001_R1_002.fastq

命名規則

    s_Ga_Lb_Rc_d.fastq.gz とした場合;

Ga : 参照ゲノム番頭 (サンプルシート一番上に出現したゲノムが “G1”とな
ります)Lb : レーン番号 (MiSeqで現在1レーンみた
め、必ずL001になります)
Rc : リード番号 (リード1 は R1, リード2 は R2, インデクスリード は
I1 か I2 になります。
     I2 Nextera dual index をお使いになりサンプルシートに2つのインデクス
を用いる際のみです) 
d  : タイルグループ番号
     (現在1から6タイルでとられたデータを "001", 7 から 12タイル目のデー
タを "002”で分けています)

注意: 末尾の002などは便宜上 FASTQをタイルグループに分けた番号であり、
インデクス番号ではありません。

      s_G0_ など、0番は基本的に不明 (Undetermined) なものが纏められたものて
゛す。 
      I1, I2 --- あいいち、あいに。英大文字の I に数字です。

これらの情報を受けて以下のように情報をまとめました。NGS Surfer's Wiki(fastq) ファイル名 - ペアエンド その他のシーケンサーや過去のIllumina/solexaで例に当てはまらない例をご存知の方がおられましたら、 引き続きお知らせいただけますと幸いです。

回答日 Apr 18 '12 at 00:16

nob_fj's gravatar image

nob_fj ♦
50761328

あなたの回答
プレビューをトグルする

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

×4
×1
×1

質問日: Mar 23 '12 at 19:56

閲覧数: 4,302 回

最終更新日: Apr 18 '12 at 00:16

powered by OSQA