gpt4 book ai didi

mongodb - 使用 MongoDB 对 PDF、word 和文本文档进行信息提取、索引和搜索

转载 作者:可可西里 更新时间:2023-11-01 09:52:45 31 4
gpt4 key购买 nike

MongoDB 是否具有我可以存储 PDF、文本或 .doc/docx 文档并搜索它们的功能?或者根据在其内容中找到的关键字在两个文档之间进行匹配?

例如:

我可能想存储一份名为'claim.txt' 的文档,其中包含
诊断代码、简短描述、日期和金额
我需要存储另一个名为“physician_diagnosis.pdf”的文件,其中包含与其他文本匹配的简短描述。

我想发出查询,在那里我可以找到任何具有匹配日期的文档和同样的诊断。 (例如“肺炎”、“12/12/2012”)

MongoDB 仅使用其 API 是否可以实现类似的功能,或者我是否需要进行一些预处理?

如果可能的话,请您指出好的示例和文档。

最佳答案

您的任务可能更适合像 Solr ( http://lucene.apache.org/solr/ ) 这样的东西,它有许多不同文档的输入 ( http://wiki.apache.org/solr/ExtractingRequestHandler )。不过,您将不得不编写一些代码来进行正确的提取。

MongoDB 更适用于结构化 数据——尽管我们称它们为文档,但我们在这里并不是指“PDF 文档”或“word 文档”。它只是支持我们称为文档的嵌套字段类型的通用格式,而不是不允许这样做的关系数据库行。

关于mongodb - 使用 MongoDB 对 PDF、word 和文本文档进行信息提取、索引和搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16636911/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com