ログイン 概要 よくある質問

はじめまして、初めて使用させていただきます。よろしくお願いします。

1,疑問点

・以下の論文でValder氏の提唱している式(37式)を学びましたが、その式中でHenikoff氏の考案した重み付けがなぜ使用されているのかわからない。 (参照:https://www.ncbi.nlm.nih.gov/pubmed/12112692)

疑問を持った理由

→例えば、100本のマルチプルアラインメントされた相同配列のうち、99本が90%程度の一致度を示し、残りの1本が20%程度の一致度を示しているような場合を考える。 重み付けの計算式によれば、20%の一致度を示す配列の情報を保存度に大きな影響として与えようとしていることがわかる。なぜ、このような計算方法をとる必要があるのか?99本の保存されていると考えられるサイトを以って、全ての配列は90%程度保存されていると判断してはいけないのはなぜか?と考えたため。

---論文を読み込めない方のために、使用している式について以下に画像をキャプチャしました---

1,Valder氏の保存度算出式(https://gyazo.com/8285e51d7bd7db8d8057bb376e9e454f)

2,重み付けの計算方法(https://gyazo.com/7907a5beddc2a1ee6348e310f9a5d78b)

※iは配列の数を表し、Nは配列の総数を表している。xはポジションのことを表している。

→お分かりになる方がいるだろうという希望的観測のもと質問をいたしますので、計算方法の詳細については記述いたしません。必要な場合は追記いたしますので、おしらせください。

3,スコア行列から取得したアミノ酸ペアの値に対する計算(https://gyazo.com/60242cf27db66929a5490dc0ed9b1558)

4,スコア行列=Blosum62(https://gyazo.com/7c8c0bb28db10ba26d07bdf6e40aed57)

2,私の理解度について

Valder氏の式については、"加重平均"を計算していることは理解しております。配列ごとに重み付けをした値を分母と分子にとり、 分子についてはBlosum62のスコア行列から得られた値を配列同士の重み付けの積と、さらに積をとって計算しています。 分子、分母共に、各項が1を超えることは絶対にないように計算されているので、保存度は0~1の間で算出される。

3,疑問点解決のために模索したこと

・Henikoff氏の重み付けを使用する理由は、「taxonomic bias」を逃れるために導入していることを以下の参考文献から学びましたが、このバイアスについて具体例を元に詳しく説明されている文献等々を見つけることができず、具体的に記している文献を知りたいです。 (参考文献:タンパク質機能解析のためのバイオインフォマティクス P.67)

4,求めている回答

・taxonomic biasを理解することが、重み付けを式に組み込む理由として正しいのか?

→妥当である場合、taxonomic biasが発生してしまうような場合を、具体例を含んで解説している書籍、論文をご紹介いただきたいです。

→妥当でない場合、何を理解することで重み付けをする理由を説明することができるかをご指南いただきたいです。

質問日 Sep 16 at 01:57

study_bioinfo's gravatar image

study_bioinfo
32

edited Sep 16 at 22:21


極端な例を考えてみましょう。 99本は100%保存されている場合を想像してください。 その99本が、全て同種または近縁種で、それ故に配列が完全一致しています。 1本だけ、遠縁な種の配列がデータに含まれており、それは20%しか一致しなかったとします(実際にはそんなに遠いとアライメントも不能なので相同配列であると気付くことも困難ですが、それは今回の話には関係ないので置いておきます)。 こんなデータ、事実上2本の配列で保存性を評価しているのと同じじゃないですか。 99本は近縁で完全一致しているのですから、そんな近縁種ばかりから配列をいくらサンプリングしてきても、1本しかないのも同然です。 だから、そんな配列は相対的に軽く評価し、そうじゃない配列は相対的に重く評価すべきでしょう。 100%一致が90%一致に変わっても、20%一致に比べれば近縁なのは間違いありませんから、程度が違うだけです。

別の見方をしてみましょう。 アミノ酸配列の持ち主の生物または遺伝子間には、系統関係があり、系統樹が描けるはずです。 アミノ酸配列の変異は、その系統樹上で起きたイベントです。 近縁な配列間では、系統樹上の経路長(枝の長さの和)は相対的に短いです。遠縁な配列間では、経路長が長くなります。 したがって、近縁な配列群は系統樹上のごく一部の情報しか持っていないと考えられますが、遠縁な配列は系統樹上の長い経路上の情報を大量に提供してくれると考えられます。であれば、近い配列群は相対的に軽く評価すべきでしょう。

実際に保存配列A,B,C…Xがどれくらいの分類群で保存されているかINSDをBLAST検索して比較する場合を考えましょう。 単純に「ヒット件数」を使った場合、INSDには哺乳類、その中でもヒトの配列が非常に多いので、ヒトが保有している保存配列で件数が多くなるのは当然ですよね。 それで、「どれくらいの分類群で保存されているか」を正しく評価できるでしょうか。 より正しく評価するには、90%くらいの一致度でヒット配列をまとめて減らした件数だとか、ヒットした配列間の系統樹の枝長の総和を使った方がいいでしょう。

Taxonomic bias (Taxon sampling bias)を考慮すべきなのは以上のような理由によります。

さて、長々と説明しましたが、BLOSUM62のスコア行列はTaxonomic biasとは全く関係ありません。 このスコア行列は、アミノ酸置換には起きやすい置換と起きづらい置換があるので、それをデータベースから推定して作成されたものです。 同じ1回の置換でも、滅多に起きないアミノ酸置換と非常によく起きるアミノ酸置換では、前者の方がより大きな変異として扱うべきでしょう。 そのためにこのスコア行列が使用されます。

回答日 Sep 20 at 03:47

windowmoon's gravatar image

windowmoon
16

ご回答ありがとうございます。 返信に時間がかかってしまい大変申し訳ありませんでした。 重み付けについて、特に「なぜ相対的に近縁な配列を低く評価するべきなのか」について理解することができました。つまり、なぜtaxonomic biasを考慮するべきなのかについてはよくわかりました。

しかし、「taxonomic biasとは何か?」という部分についてはあまり理解ができていません。

直訳すれば、「分類的偏見」なのはわかりますが、、、

この偏見というのは、「90%一致している99本の配列と、20%の一致度しか示さない1本の配列では、1本の配列よりも99本の配列が保存されていると考える」という私の当初の考え方と同じなのでしょうか?

回答日 Sep 30 at 01:28

study_bioinfo's gravatar image

study_bioinfo
32

edited Sep 30 at 14:00

あなたの回答
プレビューをトグルする

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

×2
×1
×1

質問日: Sep 16 at 01:57

閲覧数: 128 回

最終更新日: Sep 30 at 14:00

powered by OSQA