ログイン 概要 よくある質問

超並列シーケンサ(メーカー問わず)によって出された生データが公開されているデータベースなどはありますか? データの解析などを通していろいろ勉強してみたいと思っています。

質問日 Dec 14 '10 at 13:31

asurain's gravatar image

asurain
101125

edited Dec 27 '10 at 13:57

mn3's gravatar image

mn3 ♦♦
5154922


ご所望のデータは、NCBI、EBI、DDBJでSequence Read Archive (SRA) としてアーカイブされています。

手前味噌ですが、SRAのデータを整理して、SRAs (survey of read archives)というサイトをつくりました。目的別、機器別、生物種別などからデータを検索できるようにしています。 http://sra.dbcls.jp/

本家のDDBJでもデータの検索ができますし、何より日本語でドキュメントがあったりするのでそちらも参照されるとよいと思います。 http://trace.ddbj.nig.ac.jp/dra/index.shtml

回答日 Dec 14 '10 at 14:13

thecla's gravatar image

thecla
11632

edited Dec 14 '10 at 14:19

mn3's gravatar image

mn3 ♦♦
5154922

SRA、すごくいいですね。こういうのを探していました。

(Dec 14 '10 at 14:57) asurain asurain's gravatar image

CLC Bioが"Next Generation Sequencing example data"として,次世代シーケンサで読まれたデータを幾つか公開しています.本来はCLC Genomics Workbench用のテストデータですが,Raw dataなど幾つか使える物がありそうです.

http://www.clcbio.com/index.php?id=1290

Raw dataではRoche/454,Illumina/Solexa,AB/SOLiDと主要なシーケンサからのデータが揃っているほか,RNA-Seqのデータ(CLC Genomics Workbenchで読み込む形式のみ)も公開されています.

公開ライセンスはちょっとわかりませんが,個人的にNGS解析の練習などに使う分には問題ないかと思います. 自分で触ったことがないので期待にそえるデータかどうか分かりませんが,こんなデータもあるということで質問に回答してみました.

回答日 Dec 28 '10 at 16:30

yag_ays's gravatar image

yag_ays
241158

edited Dec 28 '10 at 16:52

私はよくNCBIのSequence Read Archive(以下SRA)を使います。 NCBIのトップページの上のボックスから"SRA"を選択して、RNA-SeqとかChIP-Seqとかの キーワードを入力するとたくさんヒットすると思います。 また多くの研究者は興味を持った論文からそのデータを取得することが多いとは思いますが、 通常論文にはSRAのIDは書かれていないことが多いです(親切な著者は書いていますが・・・)。 たぶんGene Expression Omnibus(GEO)のIDが書かれていることが多いでしょう。 この場合は同様にトップページのボックスから"GEO DataSet"を選び、GEO IDで検索をすると ヒットします。GEOに登録されている次世代シーケンサデータはマッピング後のデータ(BEDファイルなど) ですが、下の方にSRAのリンクが張ってあるので、それをたどって生データを取得できます。 また生データも年々容量が増加傾向にあり、ダウンロードに時間がかかります。 (Asperaというソフトをインストールする必要があります)

回答日 Dec 14 '10 at 14:09

Tanakky's gravatar image

Tanakky
121138

edited Dec 14 '10 at 14:14

mn3's gravatar image

mn3 ♦♦
5154922

詳しい情報ありがとうございます。迷わずに辿り着くことができました!

(Dec 14 '10 at 15:13) asurain asurain's gravatar image

SRAのデータアクセスをRでおこなうBioconductorパッケージ SRAdbというものがあります。

これは、SRAのメタデータを格納したSQLiteのファイルをNCIの方が公開していて、それを操作する形になっています。詳しくはマニュアルのPDF書類をご覧ください。

簡単な操作とコードを例示します:

メタデータのダウンロードと準備、テーブル操作

library(SRAdb)
sqlfile <- getSRAdbFile() #メタデータをダウンロード
sra_con <- dbConnect(SQLite(), sqlfile)
sra_tables <- dbListTables(sra_con) # テーブル名のリストを取得
dbListFields(sra_con, "study") # "study" テーブルのフィールド名の取得
sqliteQuickSQL(sra_con, "PRAGMA TABLE_INFO(study)") # "study" テーブルの情報を一覧

SQLの実行:"study" テーブルから三つのレコードを表示

rs <- dbGetQuery(sra_con, "select * from study limit 3") 

変換:experimentやrunアクセッションの変換

conversion <- sraConvert(c("SRP001007", "SRP000931"), sra_con = sra_con) 

全文検索:"run" と "study" テーブルについて文字列 "breast" と "cancer" の含まれるエントリの検索

rs <- getSRA(search_terms = "breast cancer", 
             out_types = c("run", "study"), sra_con = sra_con) 

全文検索:"submission" が "GEO" のエントリの検索

rs <- getSRA(search_terms = "submission_center: GEO", 
             out_types = c("submission"), sra_con = sra_con)

全文検索:"study" に Carcinoから始まるワードが含まれるエントリの検索

rs <- getSRA(search_terms = "Carcino*", 
             out_types = c("study"), sra_con = sra_con)

fastq:SRR000648とsRR000657のFastqファイルの取得

getFastq(in_acc = c("SRR000648", "SRR000657"),
         sra_con = sra_con, destdir = getwd())

IGVでのシーケンスの可視化:hg18 の chr1:1-1000 として表示

exampleBams = file.path(system.file("extdata", package = "SRAdb"), 
                        dir(system.file("extdata", package = "SRAdb"),
                        pattern = "bam$"))
sock <- IGVsocket() 
IGVgenome(sock, "hg18") 
IGVload(sock, exampleBams) 
IGVgoto(sock, "chr1:1-1000") 
IGVsnapshot(sock)

SRAエントリの可視化:"colon canver"を含むエントリ

acc <- getSRA(search_terms = "colon cancer", 
              out_types = c("sra"), sra_con = sra_con, acc_only = TRUE)
g <- entityGraph(acc) 
attrs <- getDefaultAttrs(list(node = list(fillcolor = "lightblue",
                                          shape = "ellipse"))) 
plot(g, attrs = attrs)
alt text

回答日 Dec 27 '10 at 13:56

mn3's gravatar image

mn3 ♦♦
5154922

NCBI, EBI, DDBJ でのキーワード検索のリンクを調べてみました。"ChIP-Seq" で検索してみます。

NCBI SRA

EBI SRA

DDBJ DRA

回答日 Dec 14 '10 at 15:44

mn3's gravatar image

mn3 ♦♦
5154922

edited Jan 26 '11 at 01:55

フォローありがとうございます。非常にたすかります。

(Dec 15 '10 at 15:59) asurain asurain's gravatar image

DDBJ DRA でもキーワード検索が行えるようになりましたので、お知らせします。

 ・http://trace.ddbj.nig.ac.jp/DRASearch/

"ChIP-Seq" での検索結果は以下の通りです。
 http://trace.ddbj.nig.ac.jp/DRASearch/search?query_keyword=ChIP-Seq

回答日 Jan 25 '11 at 12:05

DDBJ's gravatar image

DDBJ ♦
32126

あなたの回答
プレビューをトグルする

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

×47
×13
×6
×2

質問日: Dec 14 '10 at 13:31

閲覧数: 14,189 回

最終更新日: Jan 26 '11 at 01:55

powered by OSQA