バッチで、論文タイトルのリストからEntrez PubMedのIDを取得するためにNCBIのESearchからxml情報を取得しようと 考えているのですが、以下のように、PubMedのWebサービスでは、ヒットするものが、ESearchでヒットしないものがあります。 問題の起こった論文のタイトル 「The long march: a sample preparation technique that enhances contig length and coverage by high-throughput short-read sequencing.」 Entrez PubMed
ESearchでdb=pubmedで検索時
ESearchの結果のxmlを見ると、なぜが、タイトル中の"The Long"だけ"Author"フィールドとみなされているようです。 特にタグ付けを行っていないこと、かつ、ESearchのみで発生していることで、原因が想像つかないのですが、 どなたかこのような現象に遭遇された方、対策にお心当たりのあるかたがおられましたらご助言いただけないでしょうか? 根本的な解決になるかは分かりませんが、stopwordを除去すれば、この件に関しては解決することが分かっておりますが、 類似の問題が発生しないとも限らないので、そのような場当たり的対応で良いのか分からず困っております。 |