Answer by study_bioinfo

study_bioinfo — Mon, 30 Sep 2019 01:28:07 +0900

ご回答ありがとうございます。返信に時間がかかってしまい大変申し訳ありませんでした。重み付けについて、特に「なぜ相対的に近縁な配列を低く評価するべきなのか」について理解することができました。つまり、なぜtaxonomic biasを考慮するべきなのかについてはよくわかりました。

しかし、「taxonomic biasとは何か？」という部分についてはあまり理解ができていません。

直訳すれば、「分類的偏見」なのはわかりますが、、、

この偏見というのは、「90%一致している99本の配列と、20%の一致度しか示さない1本の配列では、1本の配列よりも99本の配列が保存されていると考える」という私の当初の考え方と同じなのでしょうか？

Answer by windowmoon

windowmoon — Fri, 20 Sep 2019 03:47:16 +0900

極端な例を考えてみましょう。 99本は100%保存されている場合を想像してください。その99本が、全て同種または近縁種で、それ故に配列が完全一致しています。 1本だけ、遠縁な種の配列がデータに含まれており、それは20%しか一致しなかったとします(実際にはそんなに遠いとアライメントも不能なので相同配列であると気付くことも困難ですが、それは今回の話には関係ないので置いておきます)。こんなデータ、事実上2本の配列で保存性を評価しているのと同じじゃないですか。 99本は近縁で完全一致しているのですから、そんな近縁種ばかりから配列をいくらサンプリングしてきても、1本しかないのも同然です。だから、そんな配列は相対的に軽く評価し、そうじゃない配列は相対的に重く評価すべきでしょう。 100%一致が90%一致に変わっても、20%一致に比べれば近縁なのは間違いありませんから、程度が違うだけです。

別の見方をしてみましょう。アミノ酸配列の持ち主の生物または遺伝子間には、系統関係があり、系統樹が描けるはずです。アミノ酸配列の変異は、その系統樹上で起きたイベントです。近縁な配列間では、系統樹上の経路長(枝の長さの和)は相対的に短いです。遠縁な配列間では、経路長が長くなります。したがって、近縁な配列群は系統樹上のごく一部の情報しか持っていないと考えられますが、遠縁な配列は系統樹上の長い経路上の情報を大量に提供してくれると考えられます。であれば、近い配列群は相対的に軽く評価すべきでしょう。

実際に保存配列A,B,C…Xがどれくらいの分類群で保存されているかINSDをBLAST検索して比較する場合を考えましょう。単純に「ヒット件数」を使った場合、INSDには哺乳類、その中でもヒトの配列が非常に多いので、ヒトが保有している保存配列で件数が多くなるのは当然ですよね。それで、「どれくらいの分類群で保存されているか」を正しく評価できるでしょうか。より正しく評価するには、90%くらいの一致度でヒット配列をまとめて減らした件数だとか、ヒットした配列間の系統樹の枝長の総和を使った方がいいでしょう。

Taxonomic bias (Taxon sampling bias)を考慮すべきなのは以上のような理由によります。

さて、長々と説明しましたが、BLOSUM62のスコア行列はTaxonomic biasとは全く関係ありません。このスコア行列は、アミノ酸置換には起きやすい置換と起きづらい置換があるので、それをデータベースから推定して作成されたものです。同じ1回の置換でも、滅多に起きないアミノ酸置換と非常によく起きるアミノ酸置換では、前者の方がより大きな変異として扱うべきでしょう。そのためにこのスコア行列が使用されます。

Answers to: アミノ酸配列の保存度算出に伴う重み付けスコアの意義について

Answer by study_bioinfo

しかし、「taxonomic biasとは何か？」という部分についてはあまり理解ができていません。

Answer by windowmoon