gpt4 book ai didi

python - 如何在Refextract上同时运行多个文件

转载 作者:行者123 更新时间:2023-12-04 09:06:43 31 4
gpt4 key购买 nike

我是 Python 新手,我需要从科学文献中提取引用资料。以下是我正在使用的代码

from refextract import extract_references_from_file

import pandas as pd

references = extract_references_from_file('1503.07589.pdf')

dfref = pd.DataFrame(references)

dfref.to_excel('./refs.xlsx')
我一次只能使用此命令从单个文件中提取引用,但我需要从多个文件中提取引用。所以,请指导我是否有可能以及如何去做。非常感谢!

最佳答案

docs声称提取的引用作为 dict 返回.

Returns a dictionary with extracted references and stats.


这不太准确。 listdict s 返回,
每个引用资料一本字典。
所以你只需要建立一个更长的列表。
from refextract import extract_references_from_file

higgs_papers = ['1503.07589', '2008.05492']
references = []
for paper in higgs_papers:
references.extend(extract_references_from_file(f'/tmp/{paper}.pdf'))
现在你有一个更大的列表, references ,你可以变成更大的 df .

您可能还会找到 glob方便的:
import glob

files = glob.glob('/tmp/*.pdf')

关于python - 如何在Refextract上同时运行多个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63428294/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com