流域の河川底生動物を採取し,形態同定とDNA解析の2つのアプローチで種数を評価したいと思っています. 形態同定で特定された分類群に基づいて,DNAデータベースから各分類群のDNA配列を持ってきました. その配列からコンセンサス配列を作り,これをリファレンス配列としました. クエリ配列は河川底生動物のサンプルDNA(16万配列)とし,リファレンス配列に対してglobal alignmentをしました. この時のalignmentソフトはBowtieを使いました. しかし,クエリ配列の16万配列の内,リファレンス配列に対してalignmentされた配列が1割にも満たない結果となりました. alignmentされる配列の割合を増やしたいと考えていまして, クエリとリファレンス間の塩基一致割合(identity)の条件を下げる方法を取りたいのですが,global alignmentができて,かつidentityの条件を変更できるalignmentソフトをご教授頂いてよろしいでしょうか |
検出される生物相の違いを見たいのであれば、そもそもmultiple (global) alignmentは必要ないのでは? わけのわからないコンセンサス配列も必要ないでしょう。 その前に、GS FLXは読み間違いがたくさんあるので、通常はデノイジングと呼ばれる処理を行います。 これは、ベースコール前の生データ(flowgram)のクラスタリングを用いるものと、ベースコール後の塩基配列のクラスタリングを用いるものがあります。 その上で、非常に類似した塩基配列は同種由来とみなし、95~100%一致する塩基配列はクラスタリングを行って(各クラスタをOTUと呼び、この処理をOTU clusteringとかOTU pickingと呼ぶ)、代表配列だけを抜き出します。 100%一致する配列もあるでしょうから、そのような配列を一々別個に処理するのは時間の無駄です。 この処理で、そのようなデータの冗長性を除きます。 これで、残る配列は数百から数千程度になるでしょうから、もし必要だと考えるのであれば、multiple alignmentすればいいでしょうし、BLASTなり何なりで同定してもいいでしょう。 ただ、形態で同定された全種は登録されていないでしょう。 分子同定では、リファレンスデータベースに登録されていない種は絶対に同定できませんので、検出されません。 したがって、検出できた種数は十中八九NGSの方が少なくなるでしょうね。 NGSデータの種同定は行わずに、NGSデータではOTU数を、形態データでは種数を多様度の指標とし、地点間の多様度を比較すれば、(多様度の値ではなく)地点間の比較結果が類似したものになるか、そうでないかは調べられるかと思います。 ちなみに、昨年のEcology Letters誌に以下の論文が出ていますので、お読みになることをおすすめします。 http://dx.doi.org/10.1111/ele.12162 |
過去の経験では、とにかく一部データ(数万read)だけでもmegablastでNR等にかけてみると、 コンタミ(ホストの生物やキャリーオーバー)しているサンプルが判明したり、アダプターや インデックスが取り除けていなかったり、といった状況が見えてくるといったことがありました。 global alignmentでなければならない理由が分かりませんが、一部だけでも (mega)blast等でまずは検索した結果を分類してみると、 対策が立てやすくならないでしょうか? |