ログイン 概要 よくある質問
0
1

すでに既出の質問になるのですが、私の場合うまくいかなかったので、再度質問させていただきたく思います。以前に質問されていた内容は以下です。 以前されていた質問

Dorpbox の公開アクセスフォルダと、Galaxy の公開ヒストリを試しているのですが、どちらもうまくいきません。具体的には、今回はじめてDropboxを利用するためにフリーのアカウント2GBを作り、そこからカメラアップロード等のフリー容量追加の方法で約3GBの容量を確保しました。 カメラアップロードでの容量追加

以下のように2.7GBのBAMファイルを置きました。左クリックして[共有]を使った場合のURLです。 左クリックから共有

これをUCSC Browserの”Paste URLs or data:”に以下のように貼り付けて[Submit]をクリックしました。

track type=bam name="MyBAM1" bigDataUrl="https://www.dropbox.com/s/4vn1w95rmqk1521/GRC13290252-48725-D1_post.bam"

しかし、以下のエラーが返ってくるだけです。

Error : No Content-Length: returned in header for https://www.dropbox.com/s/4vn1w95rmqk1521/GRC13290252-48725-D1_post.bam, can't proceed, sorry

少し方法を変えて、右クリック、[公開リンクをコピー]から以下のURLを得ました。 右クリックから公開リンクをコピー すると今度は別のエラーメッセージとなりました。

Error : unable to fetch 8192 bytes from https://dl.dropboxusercontent.com/u/274315667/GRC13290252-48725-D1_post.bam @0 (got 1 bytes)

情報を求めてUCSC公式の記述を探したところ、以下のように記述がありました。

Problem: I see that Dropbox accepts byte-range requests, but I can't get my data to display. Why? (中略) Paid Dropbox accounts may not experience this problem. UCSC公式

しかし、思い切って支払ったところで、"may not"と記されているということは、確実にうまくいくとは限らないので、先にGalaxyの方を試みました。先ほどと同じBAMファイルをGalaxyの公開ヒストリに以下のようにアップロードしました。 公開ヒストリ

すでに[display at UCSC main]というリンクが張られているので、それをクリックすると、以下のエラーメッセージが表示されます。

Byte-range request was ignored by server. Expected Partial Content 206

その一方で、Add Custom Tracksに書き込むためのURLは、どうやれば取得できるのか分かりませんでした。もしかするとGoogle Chromeではなく、他のブラウザを使った方がいいのでしょうか?

大変素人な質問で申し訳ありません。個人で作業をしているもので、環境にもめぐまれておりません。皆様のお知恵をお貸しいただきたく思っております。


追記で詳しい事情をご説明いたします。nob_fj様からコメントいただいたのですが、BAIファイルの生成の仕方が分からないという問題があって、これについても教えていただきたく思っております。今回のデータは、患者である私自身のexomeシーケンシングの結果です。以下の遺伝子検査会社が、おそらく現在のところ世界で唯一、患者自身からのサンプルを受け取ってシーケンシングしてくれるので、そこからVCF、BAM、FASTA形式のファイルを受けとりました。 DNADTC

このような事情でファイル形式についても勉強しながら作業しているところで、とりあえずテキストファイルとして見ることができるVCFの中に、私が以前の遺伝子検査で見つかったSCN4Aのc.5468C>G、P1823Rという変異があるかどうかを確認したところ、どうもその付近にそういうcallは含まれていないようなので慌てることになりました。検査会社に問い合わせたところ、BAMファイルをUCSC Genome Browserで見て、coverageが足りているかどうか確認して下さいとのことなので、それに従おうとしている次第です。

このような事情で、BAIファイルを提供してもらっていないのですが、これはどのようにして生成すればいいのでしょうか? BAMファイルから生成できるものなのでしょうか? 個人で使うような低スペックのWindows7上の作業でできるものなのでしょうか? どの文献を読めばそういう情報が書いてあるかも分からず、書いてあるウェブページを紹介いただくだけでも大変助かります。


さらに追記いたします。samtoolsというプログラムでBAMからBAIを生成できることを知ったので、Windows版バイナリを探したところ、見つかりました。i386 samtools これを用いてBAIファイルを作ることができたので、Galaxy、Dropboxともにもう一度試したのですが、やはり両方うまくいきません。Galaxyの方は、BAIファイルだけを追加でアップロードする際に、ファイル形式にBAIという選択肢がないことが気になったので、念のためBAMファイルを再度アップロードしたのですが、それもうまくいきません。具体的にはBAMのファイル名に_withBAIと追加して、samtools indexを実行し、BAIファイルの生成後に、BAMファイルをアップロードしました。BAIファイルのファイル形式がないということは、BAMファイルをアップロードする際に、指定しなくとも同時にアップロードされるのではないかと思ったからです。

BAIファイルをアップロードする他の手順があるのでしょうか?

質問日 Mar 07 '14 at 10:06

ksfk's gravatar image

ksfk
1112

edited Mar 07 '14 at 12:21

dropboxの有償アカウントで試したことはないので分らないですが、念のため確認ですが、bamファイルはソート済みで、ソート済みbamに対するindexファイルは作成されていますか?

(Mar 07 '14 at 10:32) nob_fj ♦ nob_fj's gravatar image

おっしゃられているindexファイルというのはBAIファイルと呼ばれているもののことだと思うのですが、実はこれの生成の仕方も分からなくて困っています。詳しい事情を質問に追加して記入いたします。

(Mar 07 '14 at 10:40) ksfk ksfk's gravatar image

質問の本筋とは関係のないコメントですが、私自身はバイインフォマティクスも取り扱っているIT系技術者で研究者でも、遺伝カウンセラーでもなんでもないので、個人的な見解ですが、ksfk様の質問文に記載されているデータが、テストデータでなく、exomeデータのそのものなのだとすると、公開状態になっているのを今一度考え直したほうが良いように思います。 私個人とては公開状態を止めることをお奨めします。 遺伝疾患に関係する多型情報はご自身のみならず、血縁者様の個人情報ともなりえます。 技術的な点についてはまた、別途コメントします。

(Mar 07 '14 at 14:47) nob_fj ♦ nob_fj's gravatar image

ご心配いただき恐縮です。確かに、仰るとおり私自身のexomeを公開するのはリスクのある行為です。しかし、私にはこうならざるをえない事情があるのです。日本では柳澤桂子さんの「認められぬ病」という書籍で知られているように、少なからず原因が分からないまま確定診断が得られず、放置される患者が存在します。希少疾患ゆえの患者数の少なさと、ゲノムの全領域に渡ってあまりにも多様に原因変異が分布するためです。遺伝子に原因があると特定されたわけではありませんが、私自身もそういった患者の一人だと思っています。理論的、確率的にはどんなに稀な病気、極端な話、世界に一人だけの疾患でもありうるのが現実です。ですから、私自身としては、こう思うのです。exomeを公開することで、少しでも診断に結びつくかもしれない情報を得られて、もしも子孫が私同様に発症したとしても研究が前向きに進むのであれば、私自身の判断で自分のexomeを公開するという行為はかろうじて許されるであろうと。2年前にexomeシーケンシングを受けると決めた時以来、そう割り切ることに致しました。このような事情を飲み込んでいただくのはすぐには困難かもしれませんが、ここは私自身のexomeが公開されているという問題には、なにとぞご寛容に考えていただけるとありがたく思います。

(Mar 07 '14 at 15:31) ksfk ksfk's gravatar image

ファイル名はfileName.bamとfileName.bam.baiの形式だと過去試した限りは動作しました。fileNameの部分は任意の英数字で大丈夫だとは思います。bamとbaiはセットで名前を統一しておかなければだめだと思います。ただ、今自分もdropboxを再度試してみましたが、過去ううまくいっていた記述でエラーが出ていましたので、dropboxからはうまく通信できなくなったのかも知れませんね。よく調べたわけではないですが。

(Mar 07 '14 at 16:56) nob_fj ♦ nob_fj's gravatar image

track type=bam bigDataUrl="http://cell-innovation.nig.ac.jp/export/public/ucsc_101201/SRX000350_SRR001356_1000.bam" は現在でもうまくいくので、ファイルの問題と、データ置き場の問題を切り分けるために、今試そうとされているデータ置き場に上のSRX000350_SRR001356_1000.bamとSRX000350_SRR001356_1000.bam.baiをダウンロードして参照できるか試してはいかがでしょうか。うまくいくのであれば、データの問題、いかないのであれば、データ置き場の問題。

(Mar 07 '14 at 17:09) nob_fj ♦ nob_fj's gravatar image

ご回答をいただきまして、ありがとうございます。示していただいたSRX000350_SRR001356_1000.bamで現在試しているところですが、こちらでもDropboxでエラーが出ます。Galaxyの方は[display at UCSC main]をクリックして表示したところエラーが出ず、初めてうまく表示されたようです。このときにBAIファイルをアップロードしなかったので、おそらくBAMをアップロードすると自動でBAIもアップロードされるのではないかと思います。その一方で、sortとindexをほどこしたGRC13290252-48725-D1_post_withBAI_sorted.bamを作って、SRX~ファイルと全く同じようにGalaxyにアップロードしたのですが、こちらは相変わらず"Byte range request was ignored by server"のエラーが表示されます。教えていただいたIGVの方も試してみます。

(Mar 07 '14 at 18:12) ksfk ksfk's gravatar image
showing 5 of 7 show all

カバレージをご参照になりたいとの件、私の個人的見解ですが、 少なくとも、データを公開状態にしてのUCSC Genome browserは第一選択肢ではなく、 多型解析であれば、windows環境でも動作し、データをローカルなディスクに置いておける(公開しない) IGVなどを使うのが妥当のような気がします。IGVは多型解析に特化して開発されている印象がありますし、 世界中の研究者が利用しています。

また同じくwindows上でも動作する、国内企業の三菱スペース・ソフトウエア株式会社が 開発されているGenomeJackも選択肢の一つかと思います。

Webサーバ系なので、幣所サーバにアップロードする形になりますが、幣所でもGenomeExplorerというゲノムブラウザを 一般利用開放しており、BAMファイルをアップロードくだされば参照することはできますし、 セキュアなプロトコルで通信を暗号化しており、他のユーザーからはデータ閲覧されないので、 公開状態でUCSC Genome Browserで閲覧するよりははるかに安心してご利用いただけます。 SNPモードではSNVだけでなく、挿入、欠損も見ることができます。 ただし、個人からの利用申請を受理できるかは、私個人の範疇・権限を超えますのでご了承ください。

注)UCSC Genome Browserも私が過去調べた際は、BASIC認証のセキュアプロトコルでのアクセスも利用可能でした。

UCSC Genome BrowserでBAMを参照するには、BAMファイルがソート済みかつ、インデックスファイル(.bai)が 作られおり、bamと同じくアクセスできる場所に配置されている必要があります。 samtoolsもwindowsで動作します。 拙文ですが、samtoolsのコマンドでの利用方法を記載しています。 NGS Surfer's Wiki(samtools) 3. bamソート と 4. bam index作成 を実行します。 ただ、ブラウザによっては、bamのソートやindex付加を必要としないはずなので、 まずはそちらを試してはいかがでしょうか。

Windows環境でsamtools使う場合、 私ならCygwinをインストールして、windows環境上でUNIX/Linuxライクな動作環境から動作させます。 試したことは無いですが、コマンドプロンプトから動作させることもできるかもしれません。 どちらも、それなりにいろいろ調べる必要があると思います。

尚、ご質問の文案を見た上で、ksfk様のご質問の「カバレージを見る」が、 こちらにmkodaさんが記載されているような特定領域のdepth of coverageの 正確な数値を調べたいということでなく、ブラウザで何配列カバーしているか 確認したいという意図だと思いましたのでそのように回答いたしました。

回答日 Mar 07 '14 at 15:51

nob_fj's gravatar image

nob_fj ♦
50761328

edited Mar 07 '14 at 15:54

ご回答ありがとうございます。IGVで表示することができました。しかし、染色体2本分のトラックが表示されるものと思っていたのが、1トラックしか表示されません。これが染色体1本分しかシーケンシングできていないのか、あるいは、BWAを使ってFASTQファイルからBAMを作り直せば2本分取り出せるのか、どちらなのか悩んでいます。検査会社にも問い合わせているところです。

(Mar 09 '14 at 07:07) ksfk ksfk's gravatar image

私は多型解析の専門と言える立場に無い点と、データの解釈に踏み込んだ点を遺伝カウンセラーのように発言できる立場にはないという 前提でご参考程度にコメントいたしますと、 「染色体2本分のトラックが表示される」の意味するところが良く分りませんが、 一般的なゲノムブラウザでは、BAMファイル1つにつき、1トラック表示されるのが普通だと思います。 細かい話をすると、

  • IGV(や確かGenomeJackも)1トラックにつき、リードレベルの表示と、カバレージを示す波形表示が1トラックにつき1つずつでます。
  • 幣所(国立遺伝学研究所)のGenomeExplorerでは、データロード時に順鎖方向と逆鎖方向を別トラックに入れる選択もできます。が、多型解析ではこれらを順鎖/逆鎖を区別しないで利用する場合のほうが普通です。

おそらく、私の想像ですが、染色体2本分のトラックの意味が、父由来、母由来のそれぞれを意味しているのであれば、 BWAやBowtieなど私が知る範囲での一般的にexome解析で利用されるマッピングツールは、 父由来/母由来の染色体を分けてマッピングする能力はありません。ので、結果として出力されるBAMも父由来、母由来両方由来のDNAが、 1トラックに混在した状態で表示されます。 多型がヘテロである場合は約50%のリードが変異ありとなります。

多型の箇所を示すVCFファイルを作成するSNVコールのプログラムも、基本的にはこのパーセンテージや、配列の品質などを考慮して、 変異がヘテロなのか、ホモなのか、シーケンサー由来などのノイズなのかを判定します(実際にはもっと複雑な計算式を使っていますが)。

もう一点、別の観点での注意点ですが、マッピング結果のBAMファイルを取得した際の、ヒトゲノムのバージョンはhg19/GRCh37ですかhg18、GRCh36ですか。たぶんないとは思いますがhg38/GRCh38という最新版もあります。これの指定を誤ると、変異の箇所が実際と異なる表示になるので注意が必要です。

(Mar 09 '14 at 19:47) nob_fj ♦ nob_fj's gravatar image

ご指摘いただきありがとうございます。染色体の扱いについて大きな勘違いをしておりました。ヒトゲノムのバージョンがhg19であることは検査会社に確認をとりました。BAMファイルが私のものであることは私のSCN4A変異の位置でカバレージは少ないながらカウントが存在するので、一旦BAMファイルを信頼しようと思います。VCFファイルを自分で作り直すことも見当しましたが、Windows環境で済ませる自信がないので、VCFとBAMの間で10点ほど比較して一致を確認し、VCFファイルについても検査会社から受け取ったものを信頼することにします。アノーテーションの作業に入ろうと思うのですが、AnnovarよりもGene-Talkを使う方向で考えています。現段階で劣性遺伝、人口頻度0.1%未満、Functionalに限っても100点ほどdbSNPに登録のあるSNPがあるので、なんとか効率よく行う方法を探しているところです。

(Mar 11 '14 at 06:40) ksfk ksfk's gravatar image
あなたの回答
プレビューをトグルする

この質問をフォローする

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

回答

回答とコメント

タグ:

×5
×4
×3
×2
×2

質問日: Mar 07 '14 at 10:06

閲覧数: 13,259 回

最終更新日: Mar 11 '14 at 06:40

powered by OSQA