suimyeです。こんにちは。
表題の件について、ご存知の方是非ご教授いただきたくpostいたしました。
1000人ゲノムデータのVCFファイルを使ってDerived Allele Freq.(以後DAF)を計算したいのですが、調べた結果がどうも納得がいかなくてpostしております。
DAFは、祖先アレル(以後AA)に対して、祖先アレルと一致しないアレルの頻度を計算するものと考えております。
例:
祖先アレル: G
Aさんのアレル: G
Bさんのアレル: A
Cさんのアレル: G
Derived Allele: A
この場合のDAFは、1/3となる。簡単には以上のようなものと思います。
次に、1000人ゲノムのデータのVCFファイルを例にすると、
1 10177 rs367896724 A AC 100 PASS AC=2130;AF=0.425319;AN=5008;N
S=2504;DP=103152;EAS_AF=0.3363;AMR_AF=0.3602;AFR_AF=0.4909;EUR_AF=0.4056;SAS_AF=0.49
49;AA=A|||;VT=INDEL
このデータの場合は、AAがAなので、referenceと同じ塩基であり、Derived Alleleとして2塩基の"AC"がコールされています。ヒトの各地域集団ごとのアレル頻度や、ヒト全体でのアレル頻度はAFまたは~_AFで与えられていますが、これはAlternateであるACのアレル頻度なのでDAFはこの頻度をそのまま使えばよいと思っていました。ところが、Biostarなどの幾つかのpostを見ると、
Please read the vcf spec first. AF is the alternate allele frequency. AA is the ancestral allele. If both present, you can use it to get the derived allele frequency by flipping AF.
のようにアレル頻度をフリップして計算しろと書いてあります。このコメントは、そのvariantに祖先アレルがある場合はアレル頻度(AF)の逆、DAF = 1 - AFすれば良いとのことだと思いますが納得できずにいます。
私の拙い考えですと先にも書きましたように、AF値0.425319はreferenceに対するAlternateなので、variantとしてみつかったACのアレル頻度を示しており、DAF=0.425319であるように思います。これは間違いなのでしょうか?くだんのBiostarでは、例にとられたVCFの行には祖先アレルはcallされていませんので、referenceとalternateのどちらが祖先アレルなのか分らず、回答者の「AFをフリップしたらDAF」という回答には釈然としない状況です。もしご存知の方いらっしゃいましたらご教示いただけますと幸甚です。
@suimye
質問日
Jan 05 '16 at 17:17
suimye
296●1●8●15