次世代シーケンサのオープンなデータ

2	超並列シーケンサ(メーカー問わず)によって出された生データが公開されているデータベースなどはありますか？データの解析などを通していろいろ勉強してみたいと思っています。 bioconductor sra データベース ngs 質問日 Dec 14 '10 at 13:31 asurain 101●1●2●5 edited Dec 27 '10 at 13:57 mn3 ♦♦ 515●4●9●22

6 Answers:

回答順最新支持されている順

ご所望のデータは、NCBI、EBI、DDBJでSequence Read Archive (SRA) としてアーカイブされています。

手前味噌ですが、SRAのデータを整理して、SRAs (survey of read archives)というサイトをつくりました。目的別、機器別、生物種別などからデータを検索できるようにしています。 http://sra.dbcls.jp/

本家のDDBJでもデータの検索ができますし、何より日本語でドキュメントがあったりするのでそちらも参照されるとよいと思います。 http://trace.ddbj.nig.ac.jp/dra/index.shtml

回答日 Dec 14 '10 at 14:13

thecla
116●3●2

edited Dec 14 '10 at 14:19

mn3 ♦♦
515●4●9●22

SRA、すごくいいですね。こういうのを探していました。

(Dec 14 '10 at 14:57) asurain

CLC Bioが"Next Generation Sequencing example data"として，次世代シーケンサで読まれたデータを幾つか公開しています．本来はCLC Genomics Workbench用のテストデータですが，Raw dataなど幾つか使える物がありそうです．

http://www.clcbio.com/index.php?id=1290

Raw dataではRoche/454，Illumina/Solexa，AB/SOLiDと主要なシーケンサからのデータが揃っているほか，RNA-Seqのデータ（CLC Genomics Workbenchで読み込む形式のみ）も公開されています．

公開ライセンスはちょっとわかりませんが，個人的にNGS解析の練習などに使う分には問題ないかと思います．自分で触ったことがないので期待にそえるデータかどうか分かりませんが，こんなデータもあるということで質問に回答してみました．

回答日 Dec 28 '10 at 16:30

yag_ays
241●1●5●8

edited Dec 28 '10 at 16:52

私はよくNCBIのSequence Read Archive（以下SRA）を使います。 NCBIのトップページの上のボックスから"SRA"を選択して、RNA-SeqとかChIP-Seqとかのキーワードを入力するとたくさんヒットすると思います。また多くの研究者は興味を持った論文からそのデータを取得することが多いとは思いますが、通常論文にはSRAのＩＤは書かれていないことが多いです（親切な著者は書いていますが・・・）。たぶんGene Expression Omnibus(GEO)のIDが書かれていることが多いでしょう。この場合は同様にトップページのボックスから"GEO DataSet"を選び、GEO IDで検索をするとヒットします。GEOに登録されている次世代シーケンサデータはマッピング後のデータ(BEDファイルなど) ですが、下の方にSRAのリンクが張ってあるので、それをたどって生データを取得できます。また生データも年々容量が増加傾向にあり、ダウンロードに時間がかかります。（Asperaというソフトをインストールする必要があります）

回答日 Dec 14 '10 at 14:09

Tanakky
121●1●3●8

edited Dec 14 '10 at 14:14

mn3 ♦♦
515●4●9●22

詳しい情報ありがとうございます。迷わずに辿り着くことができました！

(Dec 14 '10 at 15:13) asurain

SRAのデータアクセスをRでおこなうBioconductorパッケージ SRAdbというものがあります。

これは、SRAのメタデータを格納したSQLiteのファイルをNCIの方が公開していて、それを操作する形になっています。詳しくはマニュアルのPDF書類をご覧ください。

簡単な操作とコードを例示します：

メタデータのダウンロードと準備、テーブル操作

library(SRAdb)
sqlfile <- getSRAdbFile() #メタデータをダウンロード
sra_con <- dbConnect(SQLite(), sqlfile)
sra_tables <- dbListTables(sra_con) # テーブル名のリストを取得
dbListFields(sra_con, "study") # "study" テーブルのフィールド名の取得
sqliteQuickSQL(sra_con, "PRAGMA TABLE_INFO(study)") # "study" テーブルの情報を一覧

SQLの実行："study" テーブルから三つのレコードを表示

rs <- dbGetQuery(sra_con, "select * from study limit 3")

変換：experimentやrunアクセッションの変換

conversion <- sraConvert(c("SRP001007", "SRP000931"), sra_con = sra_con)

全文検索："run" と "study" テーブルについて文字列 "breast" と "cancer" の含まれるエントリの検索

rs <- getSRA(search_terms = "breast cancer", 
             out_types = c("run", "study"), sra_con = sra_con)

全文検索："submission" が "GEO" のエントリの検索

rs <- getSRA(search_terms = "submission_center: GEO", 
             out_types = c("submission"), sra_con = sra_con)

全文検索："study" に Carcinoから始まるワードが含まれるエントリの検索

rs <- getSRA(search_terms = "Carcino*", 
             out_types = c("study"), sra_con = sra_con)

fastq：SRR000648とsRR000657のFastqファイルの取得

getFastq(in_acc = c("SRR000648", "SRR000657"),
         sra_con = sra_con, destdir = getwd())

IGVでのシーケンスの可視化：hg18 の chr1:1-1000 として表示

exampleBams = file.path(system.file("extdata", package = "SRAdb"), 
                        dir(system.file("extdata", package = "SRAdb"),
                        pattern = "bam$"))
sock <- IGVsocket() 
IGVgenome(sock, "hg18") 
IGVload(sock, exampleBams) 
IGVgoto(sock, "chr1:1-1000") 
IGVsnapshot(sock)

SRAエントリの可視化："colon canver"を含むエントリ

acc <- getSRA(search_terms = "colon cancer", 
              out_types = c("sra"), sra_con = sra_con, acc_only = TRUE)
g <- entityGraph(acc) 
attrs <- getDefaultAttrs(list(node = list(fillcolor = "lightblue",
                                          shape = "ellipse"))) 
plot(g, attrs = attrs)

回答日 Dec 27 '10 at 13:56

mn3 ♦♦
515●4●9●22

NCBI, EBI, DDBJ でのキーワード検索のリンクを調べてみました。"ChIP-Seq" で検索してみます。

NCBI SRA

http://www.ncbi.nlm.nih.gov/sra/?term=ChIP-Seq

EBI SRA

http://www.ebi.ac.uk/ebisearch/bsearch.ebi?db=sra&t=ChIP-Seq

DDBJ DRA

http://trace.ddbj.nig.ac.jp/DRASearch/ 検索は、OrganismとCenterName、StudyType、Platform のみで任意のキーワード検索は提供していない。
2011-01-25 追記：キーワード検索ができたとのこと：http://qa.lifesciencedb.jp/questions/179/次世代シーケンサのオープンなデータ?page=1#289

回答日 Dec 14 '10 at 15:44

mn3 ♦♦
515●4●9●22

edited Jan 26 '11 at 01:55

フォローありがとうございます。非常にたすかります。

(Dec 15 '10 at 15:59) asurain

1	DDBJ DRA　でもキーワード検索が行えるようになりましたので、お知らせします。　・http://trace.ddbj.nig.ac.jp/DRASearch/ "ChIP-Seq" での検索結果は以下の通りです。　http://trace.ddbj.nig.ac.jp/DRASearch/search?query_keyword=ChIP-Seq 回答日 Jan 25 '11 at 12:05 DDBJ ♦ 321●2●6

あなたの回答

プレビューをトグルする

コミュニティー wiki

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

ngs ×47
sra ×13
データベース ×6
bioconductor ×2

質問日: Dec 14 '10 at 13:31

閲覧数: 14,189 回

最終更新日: Jan 26 '11 at 01:55

次世代シーケンサのオープンなデータ

メタデータのダウンロードと準備、テーブル操作

SQLの実行："study" テーブルから三つのレコードを表示

変換：experimentやrunアクセッションの変換

全文検索："run" と "study" テーブルについて文字列 "breast" と "cancer" の含まれるエントリの検索

全文検索："submission" が "GEO" のエントリの検索

全文検索："study" に Carcinoから始まるワードが含まれるエントリの検索

fastq：SRR000648とsRR000657のFastqファイルの取得

IGVでのシーケンスの可視化：hg18 の chr1:1-1000 として表示

SRAエントリの可視化："colon canver"を含むエントリ

この質問をフォローする

ただいまベータテスト運用中です。そのために通知無くコンテンツの変更やサービスの停止変更されることがあります。

世界に広がるQAサイト

関係した質問