Answers to: ChIP-seq figureの見かたにつきまして

Comment by suimye on suimye's 回答

suimye — Thu, 29 Nov 2012 15:28:27 +0900

TSさん、こんにちは。

>High遺伝子1000個のうち、0.21個がTSS直上にピークを示す遺伝子である。

というのは間違いで、
私の例だと、

1000個の遺伝子のあるゲノム領域をみると、合計で0.21個のread数

がみられる、となります。
（当然、1000個の遺伝子というのは私が適当に仮定した数字で、通常TSS領域でしたら、２万~数万領域となると思います。）
これでも少ないと思われると思いますし、0.21個のreadというのはおかしいと思われると思います。
このX=0.21というのは、全リード数だけでなく、実際は分母に何らかの定数があって、
0.21という小さな値になっているのだと思います。
値の詳細はその正規化係数によるのですが、正確には書いてなければわかりません。
たとえば、window sizeをtotal read数とともに分母にもってきて割り算しているかもしれませんね。
（はじめにwindow sizeを1bpと書きましたが間違いかもしれません。）

この分布は、TSS付近の「ゲノム領域とread数の相関」をみているといっても良いと思います。
実際、y軸をcorrelationと表現する文献もあります Quandt K. Genomics 。
y軸の値がread数を代表していることは間違いないですが、
少ない数がかならずしも小さな分布をみているとはかぎりません。
そもそもクロマチン免疫沈降で、ある目的領域のゲノム断片が効率よく沈降すること、
沈降したゲノムが、プール内からシーケンサーへサンプルロードされる割合、
正常なクラスタ形成から、readとしてよまれる確率を考えると蓄積するリードの数を考えると
どの程度で有意とされるかは難しい考え方です。
window内の1bpあたりの平均read数が１であっても、readのゲノムへのmappingのランダム化などを
行った場合の期待値をみれば、決して少ない数字とは限らないことが分かると思います。

Comment by TS on suimye's 回答

TS — Tue, 20 Nov 2012 22:17:07 +0900

suimye様、

ご回答ありがとうございました。おかげさまでpeak regionのread数分布の作り方は理解することができました。以下の用に解釈したのですが、正しいでしょうか。

例に挙げた論文のFigure1-aでHighの赤いラインはTSSの少し上流でy軸の値がほぼ1E-8です。 Supplement figureにH2A.Zの総tag数は2.1E+7とあります。

ということは、Highに分類される遺伝子のTSS直上にmappingされるリード数をXとすると、 X/2.1E+7=1E-8で、X=0.21 High遺伝子1000個のうち、0.21個がTSS直上にピークを示す遺伝子である。ということでしょうか？

確かに黒のsilentや青のmediumのラインと比べれば確かに差はありますが、すごくまれな現象を観察している印象を受けてしまいます。

Answer by suimye

suimye — Tue, 20 Nov 2012 18:06:54 +0900

こんばんは。
Peak regionのread数分布を一番始めにみた論文はどれなのかは知らないですが、
とりあえずくだんのFigureの作成の具体的な方法は、
1. ある点(たとえばTSS)を基準としたゲノム領域のセットをつくる（遺伝子1000個のTSSまわり from -2000 to 100）
2. この1000配列にmappingされるreadの数をwindowサイズごとに計算する(ご案内いただいた論文では1bpごとに計算している)。
3. 異なるChIP-Seqごとにtotalリード数が違うので、比較する場合は、totalread数で正規化する。
3を行うことで、論文のy軸はとても小さな値になっていますよね。
その様子を図に描いてみました。
windowサイズのところは、色々工夫ができるので論文によってはsliding windowを overlapでやることで、
滑らかにしているものもあります。
図は、いまテキトウにつくってみたものなので、あんまりよろしくないですが、
直感的な理解にはつながるとおもってつくりました。