お世話になっております. 表題の内容について質問があります. 次世代シークエンサーによって得られた大量の配列をアライメントしたいと考えています. 以下のようなサンプルを用いました. 河川底生動物群集サンプル 個体数:8,921個体 対象とするDNA領域:ミトコンドリアDNAのCOI領域(658塩基長) 次世代シークエンサー:GS FLX 配列数:165,508配列 配列長:40~630塩基長(平均328塩基長) シングルエンドの配列のみです 8,921個体を形態同定することによって,流域に生息する底生動物は34分類群(30科,3目,1綱)に分類されました. 次に,各分類群から3~10配列ずつを,国際DNAデータベースから無作為にダウンロードしたのち(658塩基長の配列のみ,計180配列),180配列からコンセンサス配列を作成しました. この時,次世代シークエンサーで解析された16万配列にはプライマー配列が含まれているのに対し,DNAデータベースからダウンロードした配列には含まれていなかったので,逆相補鎖になっていないことを確認したあと,作成したコンセンサス配列の5'末端上流側にプライマー配列を加えて,これをリファレンス配列として用いました. 次世代シークエンサーで解析された16万配列(クエリ配列)とコンセンサス配列(リファレンス配列)はともにCOI領域であり,底生動物間では遺伝的にあまり離れていないため,マッピングをすることによってアライメントができるものと考えていたのですが,どうも上手くいきません. マッピングソフトはBWAを用い,bwa mem コマンドによってアライメントを行いました. クエリ配列とリファレンス配列はともにプライマー配列を含んでいるので,5'末端が揃ってアライメントされるのが理想なのですが,マッピングの開始位置が揃いません. この時の問題点はもう一つありまして,マッピングされた配列の内いくつかが,リファレンスと一致度の高い一部のみマッピングされているということです. 改善策や,16万配列をリファレンス配列に対しアライメントできるソフト等ご存知でしたらご教授ください. よろしくお願いします. |
コメントありがとうございます.global alignmentによって開始位置のずれは解消されました.しかし,クエリ配列の16万配列の内,リファレンス配列に対してalignmentされた配列数が1割にも満たない結果となり,困っています.よろしければ「アライメントについて」の質問の閲覧とアドバイスをいただけたらと思います. |
調べ物をしていたら別の方法を見つけたのでコメントしておきます。 SAMからAFG (AMOS Message File)に変換するコマンドがAMOSの最新版(gitで取ってくるやつ)に含まれています。 samtoafgです。 これを使ってまずSAMをAFGにします。 次に、AFGをPhrapのACEに変換します。 これはamos2aceで可能です。 これもAMOSに含まれています。 最後に、ace2fastaContigs.plを使うことで、各コンティグに対応するリードをアラインされた形でFASTAに出力できます。 コンティグごとに別ファイルになるとのこと。 ダウンロードは以下からできます。 http://nebc.nerc.ac.uk/tools/code-corner/scripts/sequence-formatting-and-other-text-manipulation#-ace2fastacontigs-pl 全て正常に動作するかどうかまで確認しておりませんが、うまくいったらコメント願います。 では。 |