gpt4 book ai didi

elasticsearch - 如何使用elasticsearch-mapper-attachments插件在Elasticsearch中获取文件中突出显示的字段的确切页码和行号

转载 作者:行者123 更新时间:2023-12-02 22:40:43 24 4
gpt4 key购买 nike

我正在使用elasticsearch-mapper-attachments插件从文件中获取数据。有什么方法可以获取突出显示的字段的准确页码和行号?我当前的索引映射如下。

{
"type_name" : {
"content" : {"term_vector" : "with_positions_offsets"}
}
}

最佳答案

我在“Mapper附件”插件中进行了一些挖掘,发现它非常不灵活且性能不佳。您还混合了各种顾虑(索引编制/文本提取),这将使性能调整更加复杂。

第一:您最好自己安装Tika并提取文本(这也可能会提高性能,因为您没有通过HTTP将大型的base64编码的BLOB发送到ES上,并且为该数据库保留了单独的堆/进程文本提取目的)。

第二:Is it possible to extract text by page for word/pdf files using Apache Tika?

第三:可能的话,可以将每个页面作为一个单独的字段编制索引(例如“pdf_page_1”,“pdf_page_2”等),然后您可能会获得每个匹配的字段名称,从而能够检索您匹配的页码。

另一种可能更灵活的解决方案是:a)使用PDF文件内容全部都在一个字段(数组)中索引您的文档,例如pdf_contents:[“第1页是这里,第2页是这里”],以及b)为pdf文件内容创建一个单独的索引,将每个页面作为一个单独的文档建立索引,包括页码字段。

然后,对您的“规范”结果列表进行一次查询,当您点击时,对pdf文件的内容索引进行后续查询,以过滤掉不在结果列表中的那些文档。

关于elasticsearch - 如何使用elasticsearch-mapper-attachments插件在Elasticsearch中获取文件中突出显示的字段的确切页码和行号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31674719/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com