ログイン 概要 よくある質問

平素お世話になっております。浅学のため記入内容および語彙の不備があるかと思いますが、 どうか御容赦頂ければと思います。

●背景:GEOからRNA-seqのデータを取得

NCBI が運営するGEOからRNA-seqのデータを取得したいと考えております。目的とするデータのアクセッション番号はGSE20116です。 配列データとしては6ファイルあるようです(例えばGSM515513)。

●質問:MAX formatとは?

サンプル GSM515513を見ますと、以下のような記述がありました。

Data processing AB WT Pipeline. The reads were aligned to the human hg18 (NCBI Build 36) genome. Alignments are provided in MAX format. A MAX specification file is available on the Series GSE20116 record.

上記のMAX formatとは何でしょうか?いろいろ検索してみましたが判然としませんでした。

●困っている現状

実は背景として、DDBJのftpサーバーから上記サンプルに相当するfastqファイルを取得し、tophatにてhg19へのアライメントを試みた経緯があります。ところが、accepted_hits.bamが 1 MB未満となってしまい、明らかに結果がおかしかったです。海外の掲示板も参照し、似たような事例が散見されましたが、解決できず往生しております。GEO のサイトから、マッピング済みのファイルが得られるなら、取得したいと考えています。MAX format なるものが、tophat に適用出来るかはわかりませんが、そもそもMAX formatがなんなのかすら分からない現状です。

些細な点でも構いませんので、どうか御教授頂けないでしょうか? お手数をおかけ致しますが、何卒宜しくお願い致します。

敬具

質問日 Sep 02 '15 at 16:52

megu's gravatar image

megu
1144


GSM515513のダウンロードできるファイルに、MAX formatの説明がありましたが、それではだめなのですか?

This 回答 is marked "community wiki".

回答日 Oct 22 '15 at 19:35

kh's gravatar image

kh
1

あなたの回答
プレビューをトグルする

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

×6

質問日: Sep 02 '15 at 16:52

閲覧数: 4,051 回

最終更新日: Oct 22 '15 at 19:35

powered by OSQA