Answer by 38brain

38brain — Fri, 13 Apr 2012 17:29:03 +0900

私も改行コードが問題なのではないかと思います。
Macの場合でしたら簡便な方法として、Excelで保存したテキストファイルを「mi」などのテキストエディタで開いて、
文字コードをCR (Mac) からLF (UNIX) に変更後、上書き保存すると使えるようになると思います。

あ、すれ違いでちょうど解決したところだったようですね(^ ^);

Answer by nob_fj

nob_fj — Fri, 13 Apr 2012 13:59:44 +0900

coverageBedを実行する時に-sオプションを付けておりますか？

結果が、白紙になる理由は、下の原因では説明がつかないのですが、問題の原因は、windows依存の改行コードに由来する可能性があります。

質問文中にあるデータをExcelに貼りつけて、もう1行テストレコードを作り、 "dataFromExcel.bed"という名前で保存して、実行してみました。

以下、windowsマシンのcygwin上でインストールしたBEDtoolsでcoverageBedを実行した結果です。 -aと-bは同じファイルを渡しています。

$ cat data/dataFromExcel.bed
chrVI   0       270148  NC_001138       0       +
chrVI   100     300     test1   0       +
$ sed -n "l" data/dataFromExcel.bed
chrVI\t0\t270148\tNC_001138\t0\t+$
chrVI\t100\t300\ttest1\t0\t+$
$ ./BEDTools-Version-2.14.3/bin/coverageBed.exe -a data/dataFromExcel.bed -b data/dataFromExcel.bed
chrVI   2       270148  270148131.0000000       +
chrVI   200     200     200t1   1.0000000

上記の結果は、coverageBedの本来の挙動からするとおかしな結果です。上記の結果中のタブ文字(\tに変換)や、windows改行コードに含まれるCR(\rに変換される)などの特殊文字を表示してみると以下のようになっています。

$ ./BEDTools-Version-2.14.3/bin/coverageBed.exe -a data/dataFromExcel.bed -b data/dataFromExcel.bed | sed -n "l"
chrVI\t0\t270148\tNC_001138\t0\t+\r\t2\t270148\t270148\t1.0000000$
chrVI\t100\t300\ttest1\t0\t+\r\t2\t200\t200\t1.0000000$

特殊文字の変換前の結果では、上記の"\r"のところから右側しか表示されていないことが分かるでしょうか。

windowsのExcelでタブ区切りテキストとしてファイルを保存すると改行コードの中に"\r"という特殊文字が入ってしまうのですが、これは、BEDtoolsからすると文字として認識されてしまうので、結果、strandの列が"+\r"であるとみなされてしまうのだと思います。この状態で-sオプションを効かせると、同じstrandのデータが無いため、結果が0になったりする気がします。(おそらく)

以下のsedコマンド操作で、改行文字を置換かけたあと、同じ操作を実行した所、挙動としてまともな結果が得られました。

$ sed 's/\r//' data/dataFromExcel.bed > data/dataFromExcel.CRrm.bed
$ ./BEDTools-Version-2.14.3/bin/coverageBed.exe -a data/dataFromExcel.CRrm.bed -b data/dataFromExcel.CRrm.bed
chrVI   0       270148  NC_001138       0       +       2       270148  2701481.0000000
chrVI   100     300     test1   0       +       2       200     200     1.0000000
$ ./BEDTools-Version-2.14.3/bin/coverageBed.exe -a data/dataFromExcel.CRrm.bed -b data/dataFromExcel.CRrm.bed | sed -n "l"
chrVI\t0\t270148\tNC_001138\t0\t+\t2\t270148\t270148\t1.0000000$
chrVI\t100\t300\ttest1\t0\t+\t2\t200\t200\t1.0000000$

改行コードの変換のしかたについては、上記のsedをcygwin上で実行する他、

私は、"サクラエディタ"などのエディタで正規表現置換で"\r"を空文字""に変換するなども良く使います。

この辺の情報も参考になります。 http://oshiete.goo.ne.jp/qa/856844.html 要はCR(キャリッジリターン)を除去できれば良いので選択肢はいろいろあるとは思います。試してみてはどうでしょう。

Answers to: Excel fileからBEDフォーマットのfileを作るには？

Answer by 38brain

Answer by nob_fj