<?xml version="1.0" encoding="utf-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>Answers to: 大量の配列のアライメントについて</title><link>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6</link><description>&lt;p&gt;お世話になっております．&lt;/p&gt;
&lt;p&gt;表題の内容について質問があります．&lt;/p&gt;
&lt;p&gt;次世代シークエンサーによって得られた大量の配列をアライメントしたいと考えています．
以下のようなサンプルを用いました．&lt;/p&gt;
&lt;p&gt;河川底生動物群集サンプル&lt;/p&gt;
&lt;p&gt;個体数：8,921個体&lt;/p&gt;
&lt;p&gt;対象とするDNA領域：ミトコンドリアDNAのCOI領域（658塩基長）&lt;/p&gt;
&lt;p&gt;次世代シークエンサー：GS FLX&lt;/p&gt;
&lt;p&gt;配列数：165,508配列&lt;/p&gt;
&lt;p&gt;配列長：40～630塩基長（平均328塩基長）&lt;/p&gt;
&lt;p&gt;シングルエンドの配列のみです&lt;/p&gt;
&lt;p&gt;8,921個体を形態同定することによって，流域に生息する底生動物は34分類群（30科，3目，1綱）に分類されました．&lt;/p&gt;
&lt;p&gt;次に，各分類群から3～10配列ずつを，国際DNAデータベースから無作為にダウンロードしたのち（658塩基長の配列のみ，計180配列），180配列からコンセンサス配列を作成しました．&lt;/p&gt;
&lt;p&gt;この時，次世代シークエンサーで解析された16万配列にはプライマー配列が含まれているのに対し，DNAデータベースからダウンロードした配列には含まれていなかったので，逆相補鎖になっていないことを確認したあと，作成したコンセンサス配列の5'末端上流側にプライマー配列を加えて，これをリファレンス配列として用いました．&lt;/p&gt;
&lt;p&gt;次世代シークエンサーで解析された16万配列（クエリ配列）とコンセンサス配列（リファレンス配列）はともにCOI領域であり，底生動物間では遺伝的にあまり離れていないため，マッピングをすることによってアライメントができるものと考えていたのですが，どうも上手くいきません．&lt;/p&gt;
&lt;p&gt;マッピングソフトはBWAを用い，bwa mem コマンドによってアライメントを行いました．&lt;/p&gt;
&lt;p&gt;クエリ配列とリファレンス配列はともにプライマー配列を含んでいるので，5'末端が揃ってアライメントされるのが理想なのですが，マッピングの開始位置が揃いません．&lt;/p&gt;
&lt;p&gt;この時の問題点はもう一つありまして，マッピングされた配列の内いくつかが，リファレンスと一致度の高い一部のみマッピングされているということです．&lt;/p&gt;
&lt;p&gt;改善策や，16万配列をリファレンス配列に対しアライメントできるソフト等ご存知でしたらご教授ください．
よろしくお願いします．&lt;/p&gt;</description><atom:link href="http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6" rel="self"></atom:link><language>ja</language><lastBuildDate>Fri, 11 Apr 2014 18:27:23 +0900</lastBuildDate><item><title>Answer by izumi</title><link>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6/752</link><description>&lt;p&gt;コメントありがとうございます．global alignmentによって開始位置のずれは解消されました．しかし，クエリ配列の16万配列の内，リファレンス配列に対してalignmentされた配列数が1割にも満たない結果となり，困っています．よろしければ「アライメントについて」の質問の閲覧とアドバイスをいただけたらと思います．&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">izumi</dc:creator><pubDate>Fri, 11 Apr 2014 18:27:23 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6/752</guid></item><item><title>Answer by aki</title><link>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6/722</link><description>&lt;p&gt;調べ物をしていたら別の方法を見つけたのでコメントしておきます。&lt;/p&gt;
&lt;p&gt;SAMからAFG (AMOS Message File)に変換するコマンドがAMOSの最新版(gitで取ってくるやつ)に含まれています。
samtoafgです。
これを使ってまずSAMをAFGにします。&lt;/p&gt;
&lt;p&gt;次に、AFGをPhrapのACEに変換します。
これはamos2aceで可能です。
これもAMOSに含まれています。&lt;/p&gt;
&lt;p&gt;最後に、ace2fastaContigs.plを使うことで、各コンティグに対応するリードをアラインされた形でFASTAに出力できます。
コンティグごとに別ファイルになるとのこと。
ダウンロードは以下からできます。
http://nebc.nerc.ac.uk/tools/code-corner/scripts/sequence-formatting-and-other-text-manipulation#-ace2fastacontigs-pl&lt;/p&gt;
&lt;p&gt;全て正常に動作するかどうかまで確認しておりませんが、うまくいったらコメント願います。&lt;/p&gt;
&lt;p&gt;では。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">aki</dc:creator><pubDate>Fri, 14 Feb 2014 19:11:34 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6/722</guid></item><item><title>Comment by aki on aki's 回答</title><link>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6#721</link><description>&lt;p&gt;一応コマンドを書いておきます。&lt;/p&gt;
&lt;h1&gt;マッピングする配列のファイルを.afg形式で用意&lt;/h1&gt;
&lt;p&gt;toAmos -s reads.fasta -q reads.fasta.qual -o mapping.afg&lt;/p&gt;
&lt;h1&gt;リファレンス配列を.fasta形式で用意&lt;/h1&gt;
&lt;p&gt;cp reference.fasta mapping.1con&lt;/p&gt;
&lt;h1&gt;マッピングの実行&lt;/h1&gt;
&lt;p&gt;AMOScmp mapping&lt;/p&gt;
&lt;h1&gt;アライメントデータを保存(multiFASTAではない)&lt;/h1&gt;
&lt;p&gt;make-consensus -a -b mapping.bnk -e 0.5 &amp;gt; alignment.txt&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">aki</dc:creator><pubDate>Tue, 04 Feb 2014 15:04:36 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6#721</guid></item><item><title>Comment by izumi on aki's 回答</title><link>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6#720</link><description>&lt;p&gt;すいません説明不足でした．一見揃っていないように見える配列もありますし，5'末端からズレている配列もあります．カゲロウの進化系統樹を作っている論文があったので，目ごとで系統樹を作ろうと考えていたのですが，距離行列についても考慮していきたいと思います．返答ありがとうございます．&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">izumi</dc:creator><pubDate>Mon, 03 Feb 2014 18:48:46 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6#720</guid></item><item><title>Comment by aki on aki's 回答</title><link>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6#719</link><description>&lt;p&gt;開始位置が揃わないのは、local alignmentだから一見揃っていないように見えるって話でしたか。それなら、global alignmentで改善するかもしれません。ただ、最終目的を考えるとあんまり良い手には思えませんね。そもそもCOIの600塩基そこそこでまともな系統樹は得られません。河川底生動物群集だと、カワゲラ、カゲロウ、トビケラ、ユスリカ、ヘビトンボ、ヨコエビなどでしょうが、目間は変異が飽和していると思います。目ごとに別々にやるとしても、目内でも飽和している可能性がかなり高いですね。群集系統学的解析を行うのであれば、距離行列にした方がいいかもしれません。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">aki</dc:creator><pubDate>Mon, 03 Feb 2014 17:58:24 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6#719</guid></item><item><title>Comment by izumi on aki's 回答</title><link>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6#718</link><description>&lt;p&gt;回答ありがとうございます．
アライメントを行ったあとは，以前質問しました「SAMファイルのFASTAファイルへの変換について」という質問文中にありますように，SAMファイルをFASTA形式に変換した後，Collapseを行いハプロタイプ数を出し，進化系統樹を作りたいと考えています．
開始位置が揃わないのは，30塩基~ずれが大きいと200塩基もズレています．global alignmentであれば改善されるかもしれないので，ご紹介いただいたソフトを試してみたいと思います．&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">izumi</dc:creator><pubDate>Mon, 03 Feb 2014 17:47:13 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6#718</guid></item><item><title>Answer by aki</title><link>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6/717</link><description>&lt;p&gt;マッピングの開始位置が揃わないのは、インデルがあるか、もしくはFLXの読み間違いで人工的なインデルが入っているからではないでしょうか。COIのタンパクコード領域であれば、フレームシフトはめったにないでしょうから、1～2塩基のズレであれば読み間違いでしょう。その程度のことはあるという前提で、パイプラインを構築して下さいとしか言いようがないですね。&lt;/p&gt;
&lt;p&gt;BWAはglobal alignmentではなく、BLASTのようにlocal alignmentを返すので、global alignmentしてくれる物が欲しいということですよね。AMOSに入っているAMOScmpはどうでしょうか。MUMmerというソフトでマッピングしてくれます。BWAほど高速ではないですが、16万程度なら何とかなるでしょう。&lt;/p&gt;
&lt;p&gt;別の方法としては、UCLUSTやCD-HITなどで97%程度一致する配列をクラスタリングし、クラスタごとの代表配列を抜き出してから、MUSCLEやMAFFTで多重整列することです。97%以上一致するような配列は、読み間違いで微妙に違っているだけで同種の配列とみなし、除くわけですね。&lt;/p&gt;
&lt;p&gt;なお、最終目的を述べてどんなパイプラインにするのがよいかを尋ねる方が、素早く目的を達成できるでしょう。&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">aki</dc:creator><pubDate>Mon, 03 Feb 2014 17:13:04 +0900</pubDate><guid>http://qa.lifesciencedb.jp/questions/716/%E5%A4%A7%E9%87%8F%E3%81%AE%E9%85%8D%E5%88%97%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6/717</guid></item></channel></rss>