搜索
查看: 3688|回复: 0

根据PubMed ID批量提取文献摘要

[复制链接]

20

主题

68

帖子

870

积分

版主

Rank: 7Rank: 7Rank: 7

积分
870
QQ
发表于 2016-12-25 06:31:56 | 显示全部楼层 |阅读模式
本帖最后由 bioinfo.dong 于 2016-12-25 21:51 编辑

昨天查找【Gene RIF数据库】的时候遇到一个问题。查找结果中给出了对6000多篇文章的总结,同时提供了每篇文章的PubMed ID。但是仅通过这些ID,我们无所获知文章的任何信息。于是就想有没有办法根据PubMed ID提取所有这些文章的摘要。研究了一下发现有两种方法可以帮助我们实现这一目的。

(1)Batch Entrez
NCBI提供了一个网页版工具Batch Entrez,只要上传存有PubMed ID的文件即可,但是ID数据有上限,我试过2000是可以的,2500没成功,就assume最多可一次性查找2000篇文献吧。如果你的PubMed ID太多,可以用【Python分隔文本文件】把每2000个ID分到一个文件中。
1.png

对于查找到的结果,点击【Send to】可以仅下载文章的summary或者abstract,或者输出MEDLINE、CSV等格式。
2.png

MEDLINE格式,方便进一步提取所需信息~
3.png

(2)EFetch
如果嫌一个个upload文件太麻烦,NCBI也提供了可用于编程的EFetch。具体使用方法可以仔细阅读一下manual。 4.png

举个例子,如果你想查找PubMed ID为17284678和9997的文章的abstract,并输出为text格式,将下面的地址复制粘贴到浏览器既可。
https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=17284678,9997&retmode=text&rettype=abstract

很明显,我们也可以用一个简单的脚本批量提取,等有时间再写一个放上来吧。另外,efetch可一次性提取的ID最多为200个,当然如果用脚本来处理,这也不影响什么,无非多几个循环而已。
Manual中也提到,如果超过200个ID,可以考虑使用HTTP POST的方法,这个我还没搞清楚怎么弄,欢迎讨论~~~

You really shouldn't spend your time reinventing the wheel
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-21 02:10 , Processed in 0.031486 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.