ログイン 概要 よくある質問

はじめて質問させていただきます。 ウィルスに関するメタゲノム解析を計画しています。シーケンシングは外注する予定です。 ウィルスならゲノムサイズが小さいので、シーケンスカバレッジは1Gで充分なのではと言う人もいます。 一方、生体材料(臨床検体)中の核酸はほとんどヒト由来でありウィルスはごく微量なので、かなり深く読まないと(例 5Gとか10G)、その中に微量に含まれるウィルスをde novoで連結はできないという話もあります。

貴重な検体であり、コストがかかっても、ウィルスがいればそれを見つけたいと思っています。

1G, 5G, 10Gとシーケンスカバレッジを上げれば、de novoシーケンスできる確率も上昇するものでしょうか? あるいは雑音であるヒト由来のreadも増えるため結局 効果ないでしょうか?

ご指導のほどよろしくお願いいたします。

質問日 Sep 05 '14 at 21:05

deer's gravatar image

deer
157


もう解決されたかもしれませんが、回答無いので、 メタゲノムは直接触ったことのない一介の技術者が、 直接的な答えではありませんが、ご参考までに記載してみます。

基本的にはシーケンス品質が充分高ければ、ヒト核酸がどれだけ 多量に含まれていたとしても、配列ファイルをヒトゲノムに マップして、マップしたリードを除外した上で、 ウイルスゲノムのアセンブリなどを試みれば問題ないような気がします。

つまり量が少なくて、アセンブリに必要量が確保できないことはあっても、 (大多数の高品質な)ヒト核酸が邪魔でヒト由来以外の核酸の解析に支障が 出るということはなさそうな気がします。

詳しくないものの注意点としてはヒトゲノムに内在するレトロウイルス 由来の配列などにターゲットのウイルスの核酸が高い相同性を示すと、 同じく除外してしまう可能性があるかもしれません。

また、最近の並列シーケンサーのデータは品質が高いので、 経験値の高い外注先に依頼される限り問題ないとは思いますが、

量的に以下のような状態だと、ウイルスゲノムのアセンブリなどがうまくいかない かもしれません。

ヒト配列 > ヒト配列かは不明な低品質ノイズ配列 >> ターゲットのウイルス核酸

ヒト配列 > ターゲットウイルス核酸 > ヒト配列かは不明な低品質ノイズ配列

の量比関係が成り立つならうまくいきそうな気はします。

もしヒト由来とウイルス由来の配列をうまく分離できなかったとしても、 結果としてアセンブルできたcontig配列にもとのリード(アセンブル前の生配列)を マッピングしてカバレージ(depth of coverage)を見て見れば、 ヒト由来のcontigのカバレージと、ウイルス由来のカバレージでは、 分布が明らかに異なるはずなので、区別できる可能性があります。 以前同僚が真核生物配列中のコンタミを検出した手法のご参考情報です。以下の最後の図。

もっとも、以下のサイトにあるツールなどを用いたほうが目的に合致するかもしれません。

解析余力があるようでしたら、同様の解析をされている論文の公開データを DRA SearchDBCLS SRAなどで探して、そのデータで事前に試すなどしてみては いかがでしょうか。ホスト由来のノイズがどの程度含まれるのかの感触は分るかもしれません。

回答日 Sep 13 '14 at 04:46

nob_fj's gravatar image

nob_fj ♦
50781628

edited Sep 13 '14 at 04:53

大変、詳細かつ貴重なご助言をありがとうございました。

お教えいただいたパイプラインを、これから勉強させていただきます。 (わからないところはまた質問させていただきますので、ご指導ください)

アセンブルできたcontig配列にもとのリード(アセンブル前の生配列)を マッピングして カバレージ(depth of coverage)を見て見れば、 ヒト由来のcontigのカバレージと、ウイルス由来のカバレージでは、 分布が明らかに異なるはずなので、区別できる可能性があります。

このあたり難しくてまだ消化しきれていませんが、同様のテーマでのReadデータをさがして、自分でも解析してみます。

Metagenomic analysisのtoolサイトをご紹介いただきありがとうございました。

今後ともよろしくお願い申し上げます。

回答日 Sep 13 '14 at 13:08

deer's gravatar image

deer
157

一般論に落とせるかどうかは自分も分りませんが、真核生物に原核生物やウイルスのコンタミがあると、分子数がヒトゲノムより格段に多くなるので、contigを構成するもとのリード数を単位長あたりに換算して算出すると、原核生物やウイルス由来のものだけ桁違いに多くなる場合があります。そのような桁違いに分子数が多いcontigを検出するためにdepth of coverageを計算してあげるとうまくいくかもしれないとういお話です。メタゲノム系のツールなどでもっと効率的に実行する方法はあるかもしれません。

(Sep 13 '14 at 14:47) nob_fj ♦ nob_fj's gravatar image

nob_fjさん なるほど、おしゃっていることがわかりました。 これからメタゲノム解析(の勉強)を開始しようと思っていますが、お教えいただいたOMICtoolだけでもたくさん載っていますね。私はMEGANというのもすすめてもらっていたのですが、いずれにせよ、とっかかりが大変です。

今後ともご指導のほどお願い申し上げます。

(Sep 14 '14 at 17:48) deer deer's gravatar image
あなたの回答
プレビューをトグルする

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

×2
×1

質問日: Sep 05 '14 at 21:05

閲覧数: 4,393 回

最終更新日: Sep 14 '14 at 17:48

powered by OSQA