gpt4 book ai didi

python - 如何使用 Bio.Entrez 提取完整的 PMC 文章标题和摘要列表?

转载 作者:行者123 更新时间:2023-12-05 06:59:46 24 4
gpt4 key购买 nike

我正在尝试从 PMC/Pubmed 下载完整的标题/摘要数据。这是一个古老的问题,但 stackoverflow 上的答案似乎都没有答案。

一般方法是使用 Entrez 包,但话又说回来,您需要指定搜索词。随着时间的推移,您可以发送的查询请求也有限制。

from Bio import Entrez
Entrez.email = "A.N.Other@example.com"
handle = Entrez.esearch(db="pubmed", term="orchid", retmax=463)
record = Entrez.read(handle)
handle.close()
idlist = record["IdList"]
handle = Entrez.efetch(db="pubmed", id=idlist, rettype="medline", retmode="text")
records = Medline.parse(handle)

for record in records:
print("title:", record.get("TI", "?"))
print("authors:", record.get("AU", "?"))
print("source:", record.get("SO", "?"))
print("")

我是否可以使用 Python 或直接从任何其他来源从 PMC 下载整篇文章和摘要数据?

最佳答案

解决此问题的一种方法是使用带有术语的 esearch 方法,该术语允许从 pubmed 开头搜索文章,并开始以迭代方式更改 retstart 参数来引入文章。

batch_size = 20
start = 0

while start<1000:
handle = Entrez.esearch(db="pubmed",term = "2015/3/1:2022/4/30[Publication Date]",retmode="xml",retstart = start, retmax = batch_size)
summaries = Entrez.read(handle)
handle.close()
start = start + batch_size

关于python - 如何使用 Bio.Entrez 提取完整的 PMC 文章标题和摘要列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64322120/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com