Answer by deer

deer — Sat, 13 Sep 2014 13:08:36 +0900

大変、詳細かつ貴重なご助言をありがとうございました。

お教えいただいたパイプラインを、これから勉強させていただきます。（わからないところはまた質問させていただきますので、ご指導ください）

アセンブルできたcontig配列にもとのリード(アセンブル前の生配列)をマッピングしてカバレージ(depth of coverage)を見て見れば、ヒト由来のcontigのカバレージと、ウイルス由来のカバレージでは、分布が明らかに異なるはずなので、区別できる可能性があります。

このあたり難しくてまだ消化しきれていませんが、同様のテーマでのＲｅａｄデータをさがして、自分でも解析してみます。

Metagenomic analysisのtoolサイトをご紹介いただきありがとうございました。

今後ともよろしくお願い申し上げます。

Answer by nob_fj

nob_fj — Sat, 13 Sep 2014 04:46:37 +0900

もう解決されたかもしれませんが、回答無いので、メタゲノムは直接触ったことのない一介の技術者が、直接的な答えではありませんが、ご参考までに記載してみます。

基本的にはシーケンス品質が充分高ければ、ヒト核酸がどれだけ多量に含まれていたとしても、配列ファイルをヒトゲノムにマップして、マップしたリードを除外した上で、ウイルスゲノムのアセンブリなどを試みれば問題ないような気がします。

つまり量が少なくて、アセンブリに必要量が確保できないことはあっても、 (大多数の高品質な)ヒト核酸が邪魔でヒト由来以外の核酸の解析に支障が出るということはなさそうな気がします。

詳しくないものの注意点としてはヒトゲノムに内在するレトロウイルス由来の配列などにターゲットのウイルスの核酸が高い相同性を示すと、同じく除外してしまう可能性があるかもしれません。

また、最近の並列シーケンサーのデータは品質が高いので、経験値の高い外注先に依頼される限り問題ないとは思いますが、

量的に以下のような状態だと、ウイルスゲノムのアセンブリなどがうまくいかないかもしれません。

ヒト配列 > ヒト配列かは不明な低品質ノイズ配列 >> ターゲットのウイルス核酸

ヒト配列 > ターゲットウイルス核酸 > ヒト配列かは不明な低品質ノイズ配列

の量比関係が成り立つならうまくいきそうな気はします。

もしヒト由来とウイルス由来の配列をうまく分離できなかったとしても、結果としてアセンブルできたcontig配列にもとのリード(アセンブル前の生配列)をマッピングしてカバレージ(depth of coverage)を見て見れば、ヒト由来のcontigのカバレージと、ウイルス由来のカバレージでは、分布が明らかに異なるはずなので、区別できる可能性があります。以前同僚が真核生物配列中のコンタミを検出した手法のご参考情報です。以下の最後の図。

遺伝研Platform for Drug Discovery(Cell Innovationプログラム等で開発されたもの)の公開contig annotationsパイプライン

もっとも、以下のサイトにあるツールなどを用いたほうが目的に合致するかもしれません。

OMICtools(Metagenomic analysis)

解析余力があるようでしたら、同様の解析をされている論文の公開データを DRA SearchやDBCLS SRAなどで探して、そのデータで事前に試すなどしてみてはいかがでしょうか。ホスト由来のノイズがどの程度含まれるのかの感触は分るかもしれません。

Answers to: ヒトの核酸が混入している場合のカバレッジは？

Answer by deer

Answer by nob_fj