FindPeaks (3-1-9-2)を用いて以下のようなデータ形式のsamファイルを処理したいと思っています。manualでは
のファイル名のところに、入力するファイル名を打ち込めば染色体ごとの Finsdpeaksに同封されていたテストファイルではできました。データの形式が違うからできないのでしょうか?よろしければ処理する方法をご教授下さい。 SOLEXA2_90529:1:1:155:301 16 chr21.fa 37858680 85 32M * 0 0 GACAAATCACAAATATGAATTCAGATCGTCGC >96=@@@4=@@AB@A?>?A9@>A@@@?>?6&5 MD:Z:1T30 SOLEXA2_90529:1:1:160:77 0 chr21.fa 34353666 94 32M * 0 0 TTTCCGTGTATTGTGTGTGGTATATTGGACAC C0BBBB@BAACCB@>AB?B>?ABABB?<aab9 md:z:32="" .="" .="" .="" <="" pre=""> |
同封のテストファイルはEland(というツールの)フォーマットです。 同じく同封のマニュアルに出ていますが、Findpeaks3.1.9.2はデフォルトがElandモードでsamは読めません。BEDフォーマットも、フリーダウンロード可能な版では読めません。 データフォーマット変換ツールを探されるよりは、扱えるフォーマットが増えているFindPeaks4系を導入して解析された方がよさそうです。⇒WorkFlows 回答日 Feb 09 '11 at 17:41 mya_ ♦ |
返答有り難う御座います。 FindPeaks4をいじってみました。色々なフォーマットが使えるということなので、.samファイルを経由せずに直接以下のようなデータ形式のs_N_sorted.txtをinputファイルとして使うことにしました。 SOLEXA2-90529 17 5 64 4127 7001 0 1 ATCTCCCTCTGATAATCCTTCCAAATTCTCTACATT ggggggggggggfggggdgggggdgggggggggggg chr1.fa 3002960 R 36 119ここで再び質問なのですが、FindPeaks4のmanualにはinputファイルがs_N_sorted.txtの場合のAligner parameterがなんなのか書かれていません。何にすれば良いのでしょうか? 1
s_N_sorted.txt、というのはおそらくelandのデータかと思いますが、elandの出力であればそもそもFindPeaks3.1.9.2で扱えるはずですので、もう一度前述のFindPeaks4のページから、(See Supported Input formats)をクリックし、FindPeaks4がどんな形式のファイルをサポートしているか確認してみてください。扱えるデータとパラメータの関係が判ると思います。 もしご自身で、入力しようとしているデータのフォーマットがよくわからないのであれば、元データを出した方に何という名前のツールを使って出したデータなのか(もしくは、出力されているデータフォーマット)を聞いてみてください。
(Feb 14 '11 at 13:07)
mya_ ♦
|