gpt4 book ai didi

pdf - 从研究论文的 PDF 中提取信息

转载 作者:行者123 更新时间:2023-12-03 07:35:06 26 4
gpt4 key购买 nike

我需要一种从 PDF 文档中提取书目元数据的机制,以节省人们手动输入或剪切粘贴的时间。

至少,标题和摘要。作者名单及其隶属关系会很好。提取出引用文献将是令人惊奇的。

理想情况下,这将是一个开源解决方案。

问题在于,并非所有 PDF 都对文本进行编码,而且许多 PDF 都无法保留文本的逻辑顺序,因此只需执行 pdf2text 即可获得第 1 列的第 1 行、第 2 列的第 1 行、第 2 列的第 2 行1 等

我知道有很多图书馆。它识别我需要解决的文档中的摘要、标题作者等。这不可能每次都可行,但 80% 会节省大量人力。

最佳答案

每个帖子只允许有一个链接,所以就是这样: pdfinfo Linux manual page

这可能会获得标题和作者。查看手册页的底部,有一个指向 www.foolabs.com/xpdf 的链接,可以在其中找到该程序的开源代码以及适用于各种平台的二进制文件。

要提取引用书目,请查看cb2bib :

cb2Bib is a free, open source, and multiplatform application for rapidly extracting unformatted, or unstandardized bibliographic references from email alerts, journal Web pages, and PDF files.

您可能还想查看 www.zotero.org 上讨论此主题的论坛。

关于pdf - 从研究论文的 PDF 中提取信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1813427/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com