大量の配列のアライメントについて

お世話になっております．

表題の内容について質問があります．

次世代シークエンサーによって得られた大量の配列をアライメントしたいと考えています．以下のようなサンプルを用いました．

河川底生動物群集サンプル

個体数：8,921個体

対象とするDNA領域：ミトコンドリアDNAのCOI領域（658塩基長）

次世代シークエンサー：GS FLX

配列数：165,508配列

配列長：40～630塩基長（平均328塩基長）

シングルエンドの配列のみです

8,921個体を形態同定することによって，流域に生息する底生動物は34分類群（30科，3目，1綱）に分類されました．

次に，各分類群から3～10配列ずつを，国際DNAデータベースから無作為にダウンロードしたのち（658塩基長の配列のみ，計180配列），180配列からコンセンサス配列を作成しました．

この時，次世代シークエンサーで解析された16万配列にはプライマー配列が含まれているのに対し，DNAデータベースからダウンロードした配列には含まれていなかったので，逆相補鎖になっていないことを確認したあと，作成したコンセンサス配列の5'末端上流側にプライマー配列を加えて，これをリファレンス配列として用いました．

次世代シークエンサーで解析された16万配列（クエリ配列）とコンセンサス配列（リファレンス配列）はともにCOI領域であり，底生動物間では遺伝的にあまり離れていないため，マッピングをすることによってアライメントができるものと考えていたのですが，どうも上手くいきません．

マッピングソフトはBWAを用い，bwa mem コマンドによってアライメントを行いました．

クエリ配列とリファレンス配列はともにプライマー配列を含んでいるので，5'末端が揃ってアライメントされるのが理想なのですが，マッピングの開始位置が揃いません．

この時の問題点はもう一つありまして，マッピングされた配列の内いくつかが，リファレンスと一致度の高い一部のみマッピングされているということです．

改善策や，16万配列をリファレンス配列に対しアライメントできるソフト等ご存知でしたらご教授ください．よろしくお願いします．

mapping alignment ngs

質問日 Feb 03 '14 at 11:52

izumi
11●2●4●6

edited Feb 03 '14 at 11:53

3 Answers:

回答順最新支持されている順

マッピングの開始位置が揃わないのは、インデルがあるか、もしくはFLXの読み間違いで人工的なインデルが入っているからではないでしょうか。COIのタンパクコード領域であれば、フレームシフトはめったにないでしょうから、1～2塩基のズレであれば読み間違いでしょう。その程度のことはあるという前提で、パイプラインを構築して下さいとしか言いようがないですね。

BWAはglobal alignmentではなく、BLASTのようにlocal alignmentを返すので、global alignmentしてくれる物が欲しいということですよね。AMOSに入っているAMOScmpはどうでしょうか。MUMmerというソフトでマッピングしてくれます。BWAほど高速ではないですが、16万程度なら何とかなるでしょう。

別の方法としては、UCLUSTやCD-HITなどで97%程度一致する配列をクラスタリングし、クラスタごとの代表配列を抜き出してから、MUSCLEやMAFFTで多重整列することです。97%以上一致するような配列は、読み間違いで微妙に違っているだけで同種の配列とみなし、除くわけですね。

なお、最終目的を述べてどんなパイプラインにするのがよいかを尋ねる方が、素早く目的を達成できるでしょう。

回答日 Feb 03 '14 at 17:13

aki
86●1

回答ありがとうございます．アライメントを行ったあとは，以前質問しました「SAMファイルのFASTAファイルへの変換について」という質問文中にありますように，SAMファイルをFASTA形式に変換した後，Collapseを行いハプロタイプ数を出し，進化系統樹を作りたいと考えています．開始位置が揃わないのは，30塩基~ずれが大きいと200塩基もズレています．global alignmentであれば改善されるかもしれないので，ご紹介いただいたソフトを試してみたいと思います．

(Feb 03 '14 at 17:47) izumi

開始位置が揃わないのは、local alignmentだから一見揃っていないように見えるって話でしたか。それなら、global alignmentで改善するかもしれません。ただ、最終目的を考えるとあんまり良い手には思えませんね。そもそもCOIの600塩基そこそこでまともな系統樹は得られません。河川底生動物群集だと、カワゲラ、カゲロウ、トビケラ、ユスリカ、ヘビトンボ、ヨコエビなどでしょうが、目間は変異が飽和していると思います。目ごとに別々にやるとしても、目内でも飽和している可能性がかなり高いですね。群集系統学的解析を行うのであれば、距離行列にした方がいいかもしれません。

(Feb 03 '14 at 17:58) aki

すいません説明不足でした．一見揃っていないように見える配列もありますし，5'末端からズレている配列もあります．カゲロウの進化系統樹を作っている論文があったので，目ごとで系統樹を作ろうと考えていたのですが，距離行列についても考慮していきたいと思います．返答ありがとうございます．

(Feb 03 '14 at 18:48) izumi

一応コマンドを書いておきます。

マッピングする配列のファイルを.afg形式で用意

toAmos -s reads.fasta -q reads.fasta.qual -o mapping.afg

リファレンス配列を.fasta形式で用意

cp reference.fasta mapping.1con

マッピングの実行

AMOScmp mapping

アライメントデータを保存(multiFASTAではない)

make-consensus -a -b mapping.bnk -e 0.5 > alignment.txt

(Feb 04 '14 at 15:04) aki

調べ物をしていたら別の方法を見つけたのでコメントしておきます。

SAMからAFG (AMOS Message File)に変換するコマンドがAMOSの最新版(gitで取ってくるやつ)に含まれています。 samtoafgです。これを使ってまずSAMをAFGにします。

次に、AFGをPhrapのACEに変換します。これはamos2aceで可能です。これもAMOSに含まれています。

最後に、ace2fastaContigs.plを使うことで、各コンティグに対応するリードをアラインされた形でFASTAに出力できます。コンティグごとに別ファイルになるとのこと。ダウンロードは以下からできます。 http://nebc.nerc.ac.uk/tools/code-corner/scripts/sequence-formatting-and-other-text-manipulation#-ace2fastacontigs-pl

全て正常に動作するかどうかまで確認しておりませんが、うまくいったらコメント願います。

では。

回答日 Feb 14 '14 at 19:11

aki
86●1

0	コメントありがとうございます．global alignmentによって開始位置のずれは解消されました．しかし，クエリ配列の16万配列の内，リファレンス配列に対してalignmentされた配列数が1割にも満たない結果となり，困っています．よろしければ「アライメントについて」の質問の閲覧とアドバイスをいただけたらと思います．回答日 Apr 11 '14 at 18:27 izumi 11●2●4●6

あなたの回答

プレビューをトグルする

コミュニティー wiki

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

ngs ×47
mapping ×2
alignment ×1

質問日: Feb 03 '14 at 11:52

閲覧数: 11,550 回

最終更新日: Apr 11 '14 at 18:27

大量の配列のアライメントについて

マッピングする配列のファイルを.afg形式で用意

リファレンス配列を.fasta形式で用意

マッピングの実行

アライメントデータを保存(multiFASTAではない)

この質問をフォローする

ただいまベータテスト運用中です。そのために通知無くコンテンツの変更やサービスの停止変更されることがあります。

世界に広がるQAサイト

関係した質問