平素お世話になっております。浅学のため記入内容および語彙の不備があるかと思いますが、 どうか御容赦頂ければと思います。 ●背景:GEOからRNA-seqのデータを取得 NCBI が運営するGEOからRNA-seqのデータを取得したいと考えております。目的とするデータのアクセッション番号はGSE20116です。 配列データとしては6ファイルあるようです(例えばGSM515513)。 ●質問:MAX formatとは? サンプル GSM515513を見ますと、以下のような記述がありました。 Data processing AB WT Pipeline. The reads were aligned to the human hg18 (NCBI Build 36) genome. Alignments are provided in MAX format. A MAX specification file is available on the Series GSE20116 record. 上記のMAX formatとは何でしょうか?いろいろ検索してみましたが判然としませんでした。 ●困っている現状 実は背景として、DDBJのftpサーバーから上記サンプルに相当するfastqファイルを取得し、tophatにてhg19へのアライメントを試みた経緯があります。ところが、accepted_hits.bamが 1 MB未満となってしまい、明らかに結果がおかしかったです。海外の掲示板も参照し、似たような事例が散見されましたが、解決できず往生しております。GEO のサイトから、マッピング済みのファイルが得られるなら、取得したいと考えています。MAX format なるものが、tophat に適用出来るかはわかりませんが、そもそもMAX formatがなんなのかすら分からない現状です。 些細な点でも構いませんので、どうか御教授頂けないでしょうか? お手数をおかけ致しますが、何卒宜しくお願い致します。 敬具 質問日 Sep 02 '15 at 16:52 megu |
GSM515513のダウンロードできるファイルに、MAX formatの説明がありましたが、それではだめなのですか?
This 回答 is marked "community wiki".
回答日 Oct 22 '15 at 19:35 kh |