gpt4 book ai didi

php - 使用 Algolia 搜索(提取文本)PDF 文件

转载 作者:可可西里 更新时间:2023-11-01 00:57:04 24 4
gpt4 key购买 nike

对于拥有大量 PDF 文件的客户来说,这只是一个推测性的想法。

Algolia 在他们的常见问题解答中说,要搜索 PDF 文件,您首先需要从文件中提取文本。你会怎么做?

我设想的系统工作方式是:

  • 客户通过 CMS 上传 PDF
  • CMS 调用一些服务/程序来提取文本
  • Algolia 对提取的内容进行索引,并且以某种方式链接到原始 PDF

它需要是一个自动化系统,因为客户端不必告诉它编制索引。它将用 PHP 构建,可能是在 Ubuntu 上运行的 Laravel。

什么软件/服务可以从 PDF 中提取文本,是否需要任何魔法将其与 PDF 文件“链接”?

我也很乐意就可以处理此问题的其他搜索服务提出建议。

最佳答案

幸运的是,从 pdf 中提取文本是一个已被多次提及的主题。在命令行上,您可以使用 pdftotext(在 Linux 或 Mac 上可用)或在您的代码库中使用 Apache Tika (您可以找到 PHP wrapper )。

为避免在记录中出现过多噪音,我建议您随后拆分文本并为每个段落创建一个记录。然后您可以使用 Algolia 的 distinct对结果进行重复数据删除的功能。

您应该已经在某处拥有指向您文件的链接,只需将它们存储在您的记录中,然后在您的前端您就可以轻松地使用例如 autocomplete.js 创建指向它们的链接。或 instantsearch.js .

关于php - 使用 Algolia 搜索(提取文本)PDF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38640877/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com