ずっとミーティング中でなかなか調べられないのですが、SRA からのダウンロードでオススメの方法はありますでしょうか?
のようにコマンドラインでダウンロードしていますが、以下の点で不満があります。
みなさん、どのようにダウンロードされたりしているのでしょうか。オススメの方法とかありますか? |
個人的には「Aspera Connect(GUI)を使ってブラウザからDLする」という方法が一番良いのではないかと思っています. ウェブブラウザからSRAを開いて目的のファイルをダウンロードすればURLを手打ちせずに済みますし,Aspera ConnectのGUI版では途中切断・復帰が可能です.GUI環境に限られるといった制限もありますが,この方法が一番安定していると思います. CUI環境に限られるのであれば,「ftpを使ってDLする」という方法が良いと思います.私自身もリモートの計算機ではこの方法を使っています.ftpならばコマンドライン上でファイルサイズの確認もできますし,複数のファイルを一度にDLすることもできます,確かSRAではasperaが推奨されていたように記憶していますが,現状のところCUIのascpは少し使いにくいというのが私の感想です. この質問の内容からは少し逸れますが,DRA(DDBJ Sequence Read Archive)もSRAと同様にシーケンスデータをアーカイブしているので,そちらを利用するのも手だと思います.現在のところ,ファイルサイズの小さいfastqフォーマットで配布されていますし転送速度も早いと思います. |
日本からのダウンロードでしたら、DDBJ から ftp でダウンロードすることをおすすめいたします。 DDBJ では sra_lite と fastq を提供しています。 また、対象のアクセッション番号が分かっている場合、DRA Search で検索していただくと ftp へのリンクが有ります。 例) linux もしくは mac をお使いで、転送速度がそれほど出ない場合、簡単なパラメータの変更で速度のチューニングが出来ます。 rootユーザにて(sudo bash) とコマンドを打てばチューニング完了です。 再起動すれば上記で変更した値は元に戻ります。 上書きすれば元に戻ります。 windows7, vista をお使いの場合には、チューニングする必要はありません。 もし速度がでない等ありましたら状況を確認しますので trace@ddbj.nig.ac.jp までご連絡ください。 |
CUI でもう少し便利やれるだろうと調べてました。
が出来たようです。
オプションはここを参考にしました (ただし、文中で -l200m となっているが -l200M の間違いと思われる)。 |
参考までにDownload Guide - SRA Handbook - NCBI Bookshelf を紹介します。ウェブサイトとツールキットによるダウンロード方法を解説しています。 |