NCBIへのサービスのクエリの自動解釈の誤作動の問題

Question

バッチで、論文タイトルのリストからEntrez PubMedのIDを取得するためにNCBIのESearchからxml情報を取得しようと考えているのですが、以下のように、PubMedのWebサービスでは、ヒットするものが、ESearchでヒットしないものがあります。

問題の起こった論文のタイトル「The long march: a sample preparation technique that enhances contig length and coverage by high-throughput short-read sequencing.」

Entrez PubMed

http://www.ncbi.nlm.nih.gov/pubmed?term=The%20Long%20March%3A%20a%20Sample%20Preparation%20Technique%20that%20Enhances%20Contig%20Length%20and%20Coverage%20by%20High%2DThroughput%20Short%2DRead%20Sequencing

ESearchでdb=pubmedで検索時

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term=The%20Long%20March%3A%20a%20Sample%20Preparation%20Technique%20that%20Enhances%20Contig%20Length%20and%20Coverage%20by%20High%2DThroughput%20Short%2DRead%20Sequencing

ESearchの結果のxmlを見ると、なぜが、タイトル中の"The Long"だけ"Author"フィールドとみなされているようです。特にタグ付けを行っていないこと、かつ、ESearchのみで発生していることで、原因が想像つかないのですが、どなたかこのような現象に遭遇された方、対策にお心当たりのあるかたがおられましたらご助言いただけないでしょうか？

根本的な解決になるかは分かりませんが、stopwordを除去すれば、この件に関しては解決することが分かっておりますが、類似の問題が発生しないとも限らないので、そのような場当たり的対応で良いのか分からず困っております。

Accepted Answer

本件ですが、PubMed検索でもESearchと同様の検索が行われています。ただ、それで一件もヒットしなかった場合の振舞いが異なり、PubMedでは続けて内部的に完全マッチ検索を行った上で対応するPubMed IDを取得し、それを改めてクエリとして発行しているようです。

事実、PubMedでは検索結果のページに以下のコメントが表示されています。

We found 1 article using an alternative search:

更に、Advanced searchタブをクリックして得られる検索履歴(Search History)に以下の表示があることからも確認出来ます。

#3 Search 18941527[uid] 05:32:47 1

#2 Search The Long March: a Sample Preparation Technique that Enhances Contig Length and Coverage by High-Throughput Short-Read Sequencing 05:32:47 0

#3のクエリは利用者が発行したものではなく、PubMedが内部的に行ったものです。

ただ、このPubMedと同じ動作をESearchでも行う方法については分かりません。

NCBIへのサービスのクエリの自動解釈の誤作動の問題

この質問をフォローする

ただいまベータテスト運用中です。そのために通知無くコンテンツの変更やサービスの停止変更されることがあります。

世界に広がるQAサイト

関係した質問