変異解析結果をアミノ酸変異として捕らえる簡便な方法

Question

これの意図するとことはいわゆるsamtoolsのpileupのSOAP形式出力（chr19:3298 A C）のような形式を、
geneX S324R （aGU→cGU）などの形に直し、シノニムの除去やアノテーションを簡便にする方法についてです。

[私ができたこと]
UCSCのrefgene.txtからexon情報を取り出し、フレームに従って、翻訳して、ポジションごとに
chromとposition、トリプレッとの3文字と該当する番号、アミノ酸、refseqのIDを記録した
MySQL DBを作成して、変異によってアミノ酸がどう変わるか判定して使っています。
これは、実際に自分で解釈する分にはよいのですが他者に簡単に使ってもらえる仕組みでもなく、
全体の1%位の遺伝子は、deletion RNA editingの下流にエキソンがあり、途中でズレ正しく翻訳できていません。
ANNOVAも使ってみましたが、これも他者にこれでやってはどうですか？と気軽に進められない程度にはややこしい仕組みです。

まずは、こういうDBは世に存在しないのだろうか？
あったとしてRESTなどで簡便にアクセスできるものなのでしょうか？
UCSCでeditingで削られたり、増えたり、置換される塩基の情報はどこかから取ってこれるのでしょうか？

ここからは希望になりますが、
TogoWSのREST サービスにURLにchrom:position+AAで開けば、
geneX S324R （aGU→cGU）という結果が返ってくる仕組みがあれば、
コンピューターに疎い先生方でも何とかなるんじゃないかと思うので、関係の方々がごらんになっておられたら、
助言などをいただけると幸いです。

Answer 1

UCSCでeditingで削られたり、増えたり、置換される塩基の情報はどこかから取ってこれるのでしょうか？

UCSC からの情報取得に詳しくないので傍観していたのですが、回答者が今のところいないので、分かる範囲で答えてみます。 UCSC からではなく、Ensembl からであれば、比較的簡単に RNA editing の情報を持って来れます。

"Bio::EnsEMBL::SeqEdit" モジュールを使うと、次のように RNA edit 後の mRNA 配列が得られます。

use Bio::EnsEMBL::SeqEdit;
use Bio::EnsEMBL::Attribute;

# construct a SeqEdit object using a Transcript attribute
($attribute) = @{ $translation->get_all_Attributes('_rna_edit') };
$seq_edit = Bio::EnsEMBL::SeqEdit( -ATTRIB => $attribute );

print $seq_edit->start(),   "\n";
print $seq_edit->end(),     "\n";
print $seq_edit->alt_seq(), "\n";

# apply the edit to some sequence
$seq = $transcript->spliced_seq();
print "Before modifiction: $seq\n";

$seq_edit->apply_edit( \$seq );
print "After modification: $seq\n";

こちのらコード、Ensembl API Docs からの転載です。より詳細は、http://uswest.ensembl.org/info/docs/Pdoc/ensembl/index.html のページをご参照ください。

TbDGC さんの目的には、例えば、

$refCDS = $transcript->translatable_seq();
$seq_edit->apply_edit( \$refCDS );

# xxx 番目の塩基が A に変わった場合の RNA edit 後の mRNA 配列を取得
$positionInCDS = xxx;
$sampleCDS = transcript->translatable_seq();
$sampleCDS.substr(xxx, 1) = 'A';
$seq_edit->apply_edit( \$sampleCDS );

# Compare $refCDS and $sampleCDS
...

こんなコードで実現できるのではないでしょうか。（こちらのコード、未テストです、済みません。）

他にもより良い方法はあると思いますが、参考になれば幸いです。

ここからは希望になりますが、 TogoWSのREST サービスにURLにchrom:position+AAで開けば、 geneX S324R （aGU→cGU）という結果が返ってくる仕組みがあれば、コンピューターに疎い先生方でも何とかなるんじゃないかと思うので、関係の方々がごらんになっておられたら、助言などをいただけると幸いです。

このようなサービスができると、とても素晴らしいと思います。期待してます！

Answer 2

SNP Effect Predictor 初めて使ってみました、これは便利ですね！ Web アプリケーションと API script があるのですね。 Web アプリケーションだけ使ってみました：

こんな感じで，SNP 情報を入力。 alt text

すると，こんな感じで SNP の影響を教えてくれる。 alt text

あとはリンクを辿って調べてゆくと，NOC2L という遺伝子へのフレームシフト変異であることが分かる。

これは使えますね、情報ありがとうございました。　> ma_ko さん

今度 API script の方も使ってみようと思いますー

Answer 3

3

ずっと移動中できちんと問題を把握してるか自信ないんですが、Intergrated with Galaxy (コマンドラインでも動く、 Java 製)な

snpEff: SNP effect predictor http://snpeff.sourceforge.net/

というのもあります (ちょっと最近のバージョンは未検証…)。

これ元々、上で取り上げた Ensembl の SNP Effect Predictor (今は Varinat Effect Predictor と名称が変わっていました) に触発されて開発されたものなので、こちらも良いかもしれません。Sourceforge を見る限りでは、pileup format の入力にも対応したようです。

回答日 Dec 11 '10 at 19:46

ma_ko ♦♦
371●1●3●12

edited Dec 11 '10 at 20:55

ずっと移 (略) が、手元で動作させたところ、ダイレクトに pileup format をインプットにして動作しました。

snpEff_core_v1_8.zip
snpEff_v1_8_hg37.zip
をダウンロードして、解凍・セットした後に
java -Xmx1250m -jar snpEff.jar -p hg37 hoge.pileup
で Ensembl variant effect predictor のような出力を得られます。

(Dec 23 '10 at 17:52) ma_ko ♦♦

Answer 4

2

ずっと移動中できちんと問題を把握してるか自信ないんですが Ensembl のSNP Effect Predictor はどうでしょうか？ http://www.ensembl.org/tools.html

回答日 Dec 11 '10 at 14:10

ma_ko ♦♦
371●1●3●12

edited Dec 11 '10 at 20:54

ちなみに API 叩くスクリプト版では pileup format をインプットとして扱えるっぽいです。

(Dec 12 '10 at 12:33) ma_ko ♦♦

ずっと移動 (略) ですが、API script を手元で動作させたところ、ダイレクトに pileup format をインプットして動作しました。

ftp://ftp.ensembl.org/pub/misc-scripts/Variant_effect_predictor_1.0/

(Dec 12 '10 at 20:43) ma_ko ♦♦

Answer 5

ずっと移動中で (略) ですが、UCSC の RNA editing track は、以下の文献を見る限り、

The UCSC Genome Browser database: update 2011 — Nucleic Acids Res
http://nar.oxfordjournals.org/content/early/2010/10/18/nar.gkq963.full

DARNED というデータベースが元になっているようです。
DARNED http://darned.ucc.ie/ http://bioinformatics.oxfordjournals.org/content/early/2010/06/14/bioinformatics.btq285.abstract

僕自身、知らなかったことなので勉強になりました。ありがとうです > TbDGC さん
hacchy さん、フォローありがとう!

Answer 6

ちょっと本題とはズレますが、しばらくスレッドを残してもらえるということなので追記です。
ずっと移動中(略)ですが、変異探索後のランク付けで良く使われているのは以下の2つですね。
僕自身、本格的に使ってないのでメモ代わりですが…。
SIFT Home http://sift.jcvi.org/
polyphen http://genetics.bwh.harvard.edu/pph2/bgi.shtml

同様の質問が BioStar にもあったので参考までにリンクも残しておきます。
How to check if the IUPAC SNP code changes translation ? - BioStar

こっちも似てるけど、上のが良いような。
Algorithms predicting effects of SNPs / AA substitution on protein - BioStar

こちらは本論ではないですが、お役立ちかな。
Visualize effect of SNP variant on protein structure - BioStar

自力でやる時、UCSC の knownGene と knownGenePep を join してやるとアミノ酸配列も取れるので少し楽になるかもですね。
Amino Acid Position in UCSC browser - BioStar

Answer 7

hacchyさん, mn3 ♦♦さん, ma_ko ♦♦さん回答ありがとうございました。
これらの方法で、データの解釈には光明が見えてきました。
実際に使ってみて利点、弱点など比較できたら、
せめてもの情報提供という形で書き込みたいと思います。
当面の「私」の問題は片付きましたが、これだけ有益な情報が集まると、
閉じるのはまだもったいないかなと思いまして、
しばらくスレッドは開いたままにさせてください。

変異解析結果をアミノ酸変異として捕らえる簡便な方法

この質問をフォローする

ただいまベータテスト運用中です。そのために通知無くコンテンツの変更やサービスの停止変更されることがあります。

世界に広がるQAサイト

関係した質問