ChIP-seq figureの見かたにつきまして

論文のChIP-seq結果をまとめたfigureの解釈に関する質問です。自分ではChIP-seqを行ったことがなく、データ処理についての経験がありません。

具体的にはhistoneのChIP-seqを行い、転写開始点(TSS)前後におけるhistone variantの分布を示したという図について縦軸（normalized reads; RRM）の値をどう解釈してよいのかが分かりません。本分からざっくりと意味はわかり、グラフのピークが示す山型を見ればよいと思うのですが、実際にどういう処理をして縦軸がだされたのか、その値は何を意味するのかが理解できません。こういうグラフを描くことについての計算方法や解釈を示した論文がありましたらご教示いただけると大変ありがたいです。よろしくお願いいたします。

以下に具体的な例を挙げました。 PubMed Centralでfree accessできる論文ですと、PMC3125718のFigure 1のような図です。

chip-seq

質問日 Nov 20 '12 at 12:08

TS
11●1●1●2

edited Mar 11 '13 at 23:24

mn3 ♦♦
515●4●9●22

One Answer:

回答順最新支持されている順

こんばんは。
Peak regionのread数分布を一番始めにみた論文はどれなのかは知らないですが、
とりあえずくだんのFigureの作成の具体的な方法は、
1. ある点(たとえばTSS)を基準としたゲノム領域のセットをつくる（遺伝子1000個のTSSまわり from -2000 to 100）
2. この1000配列にmappingされるreadの数をwindowサイズごとに計算する(ご案内いただいた論文では1bpごとに計算している)。
3. 異なるChIP-Seqごとにtotalリード数が違うので、比較する場合は、totalread数で正規化する。
3を行うことで、論文のy軸はとても小さな値になっていますよね。
その様子を図に描いてみました。
windowサイズのところは、色々工夫ができるので論文によってはsliding windowを overlapでやることで、
滑らかにしているものもあります。
図は、いまテキトウにつくってみたものなので、あんまりよろしくないですが、
直感的な理解にはつながるとおもってつくりました。
alt text

回答日 Nov 20 '12 at 18:06

suimye
296●1●8●15

suimye様、

ご回答ありがとうございました。おかげさまでpeak regionのread数分布の作り方は理解することができました。以下の用に解釈したのですが、正しいでしょうか。

例に挙げた論文のFigure1-aでHighの赤いラインはTSSの少し上流でy軸の値がほぼ1E-8です。 Supplement figureにH2A.Zの総tag数は2.1E+7とあります。

ということは、Highに分類される遺伝子のTSS直上にmappingされるリード数をXとすると、 X/2.1E+7=1E-8で、X=0.21 High遺伝子1000個のうち、0.21個がTSS直上にピークを示す遺伝子である。ということでしょうか？

確かに黒のsilentや青のmediumのラインと比べれば確かに差はありますが、すごくまれな現象を観察している印象を受けてしまいます。

(Nov 20 '12 at 22:17) TS

TSさん、こんにちは。

>High遺伝子1000個のうち、0.21個がTSS直上にピークを示す遺伝子である。

というのは間違いで、
私の例だと、

1000個の遺伝子のあるゲノム領域をみると、合計で0.21個のread数

がみられる、となります。
（当然、1000個の遺伝子というのは私が適当に仮定した数字で、通常TSS領域でしたら、２万~数万領域となると思います。）
これでも少ないと思われると思いますし、0.21個のreadというのはおかしいと思われると思います。
このX=0.21というのは、全リード数だけでなく、実際は分母に何らかの定数があって、
0.21という小さな値になっているのだと思います。
値の詳細はその正規化係数によるのですが、正確には書いてなければわかりません。
たとえば、window sizeをtotal read数とともに分母にもってきて割り算しているかもしれませんね。
（はじめにwindow sizeを1bpと書きましたが間違いかもしれません。）

この分布は、TSS付近の「ゲノム領域とread数の相関」をみているといっても良いと思います。
実際、y軸をcorrelationと表現する文献もあります Quandt K. Genomics 。
y軸の値がread数を代表していることは間違いないですが、
少ない数がかならずしも小さな分布をみているとはかぎりません。
そもそもクロマチン免疫沈降で、ある目的領域のゲノム断片が効率よく沈降すること、
沈降したゲノムが、プール内からシーケンサーへサンプルロードされる割合、
正常なクラスタ形成から、readとしてよまれる確率を考えると蓄積するリードの数を考えると
どの程度で有意とされるかは難しい考え方です。
window内の1bpあたりの平均read数が１であっても、readのゲノムへのmappingのランダム化などを
行った場合の期待値をみれば、決して少ない数字とは限らないことが分かると思います。

(Nov 29 '12 at 15:28) suimye

あなたの回答

プレビューをトグルする

コミュニティー wiki

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

chip-seq ×7

質問日: Nov 20 '12 at 12:08

閲覧数: 32,700 回

最終更新日: Mar 11 '13 at 23:24

ChIP-seq figureの見かたにつきまして

>High遺伝子1000個のうち、0.21個がTSS直上にピークを示す遺伝子である。

1000個の遺伝子のあるゲノム領域をみると、合計で0.21個のread数

この質問をフォローする

ただいまベータテスト運用中です。そのために通知無くコンテンツの変更やサービスの停止変更されることがあります。

世界に広がるQAサイト

関係した質問