Answers to: 大量の配列のアライメントについて

Answer by izumi

izumi — Fri, 11 Apr 2014 18:27:23 +0900

コメントありがとうございます．global alignmentによって開始位置のずれは解消されました．しかし，クエリ配列の16万配列の内，リファレンス配列に対してalignmentされた配列数が1割にも満たない結果となり，困っています．よろしければ「アライメントについて」の質問の閲覧とアドバイスをいただけたらと思います．

Answer by aki

aki — Fri, 14 Feb 2014 19:11:34 +0900

調べ物をしていたら別の方法を見つけたのでコメントしておきます。

SAMからAFG (AMOS Message File)に変換するコマンドがAMOSの最新版(gitで取ってくるやつ)に含まれています。 samtoafgです。これを使ってまずSAMをAFGにします。

次に、AFGをPhrapのACEに変換します。これはamos2aceで可能です。これもAMOSに含まれています。

最後に、ace2fastaContigs.plを使うことで、各コンティグに対応するリードをアラインされた形でFASTAに出力できます。コンティグごとに別ファイルになるとのこと。ダウンロードは以下からできます。 http://nebc.nerc.ac.uk/tools/code-corner/scripts/sequence-formatting-and-other-text-manipulation#-ace2fastacontigs-pl

全て正常に動作するかどうかまで確認しておりませんが、うまくいったらコメント願います。

では。

Answer by aki

aki — Mon, 03 Feb 2014 17:13:04 +0900

マッピングの開始位置が揃わないのは、インデルがあるか、もしくはFLXの読み間違いで人工的なインデルが入っているからではないでしょうか。COIのタンパクコード領域であれば、フレームシフトはめったにないでしょうから、1～2塩基のズレであれば読み間違いでしょう。その程度のことはあるという前提で、パイプラインを構築して下さいとしか言いようがないですね。

BWAはglobal alignmentではなく、BLASTのようにlocal alignmentを返すので、global alignmentしてくれる物が欲しいということですよね。AMOSに入っているAMOScmpはどうでしょうか。MUMmerというソフトでマッピングしてくれます。BWAほど高速ではないですが、16万程度なら何とかなるでしょう。

別の方法としては、UCLUSTやCD-HITなどで97%程度一致する配列をクラスタリングし、クラスタごとの代表配列を抜き出してから、MUSCLEやMAFFTで多重整列することです。97%以上一致するような配列は、読み間違いで微妙に違っているだけで同種の配列とみなし、除くわけですね。

なお、最終目的を述べてどんなパイプラインにするのがよいかを尋ねる方が、素早く目的を達成できるでしょう。