elasticsearch - 如何使用elasticsearch-mapper-attachments插件在Elasticsearch中获取文件中突出显示的字段的确切页码和行号-6ren

elasticsearch - 如何使用elasticsearch-mapper-attachments插件在Elasticsearch中获取文件中突出显示的字段的确切页码和行号

转载作者：行者123 更新时间：2023-12-02 22:40:43

24

4

我正在使用elasticsearch-mapper-attachments插件从文件中获取数据。有什么方法可以获取突出显示的字段的准确页码和行号？我当前的索引映射如下。

{
    "type_name" : {
          "content" : {"term_vector" : "with_positions_offsets"}
    }
}

最佳答案

我在“Mapper附件”插件中进行了一些挖掘，发现它非常不灵活且性能不佳。您还混合了各种顾虑(索引编制/文本提取)，这将使性能调整更加复杂。

第一:您最好自己安装Tika并提取文本(这也可能会提高性能，因为您没有通过HTTP将大型的base64编码的BLOB发送到ES上，并且为该数据库保留了单独的堆/进程文本提取目的)。

第二:Is it possible to extract text by page for word/pdf files using Apache Tika?

第三:可能的话，可以将每个页面作为一个单独的字段编制索引(例如“pdf_page_1”，“pdf_page_2”等)，然后您可能会获得每个匹配的字段名称，从而能够检索您匹配的页码。

另一种可能更灵活的解决方案是:a)使用PDF文件内容全部都在一个字段(数组)中索引您的文档，例如pdf_contents:[“第1页是这里，第2页是这里”]，以及b)为pdf文件内容创建一个单独的索引，将每个页面作为一个单独的文档建立索引，包括页码字段。

然后，对您的“规范”结果列表进行一次查询，当您点击时，对pdf文件的内容索引进行后续查询，以过滤掉不在结果列表中的那些文档。

关于elasticsearch - 如何使用elasticsearch-mapper-attachments插件在Elasticsearch中获取文件中突出显示的字段的确切页码和行号，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31674719/

24

4

0

文章推荐： flash - ActionScript 3.0加载和播放多种声音

文章推荐： go - 关闭 Go http.Client 的连接池

文章推荐： vim - MacVim 中的第二行被第一行的 tabstop 关闭

文章推荐： powershell - 获取子项 : Illegal characters in path

pytorch - pytorch的嵌入层内部发生了什么“确切”的变化？
通过多次搜索和pytorch文档本身，我可以发现在嵌入层内部有一个查找表，用于存储嵌入向量。我无法理解的是：在这一层的培训期间究竟发生了什么？权重是多少，以及这些权重的梯度是如何计算的？我的直觉
linux - 套接字何时*确切*准备好写入？
当应用程序有大量数据(400M)要写入非阻塞套接字时，write() 返回EWOULDBLOCK 或EAGAIN 当发送缓冲区变满时。当套接字被(e)轮询时，我有时会看到发送缓冲区中有 7M 空间(
ajax - 什么*确切*是 AJAX？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
scala - “First Class”模块是什么(确切)？
我经常阅读一些编程语言对模块的支持(“一流”)(OCaml，Scala，TypeScript [？])，并且最近偶然发现了这样的答案，即在Scala的显着特征中引用模块作为一流公民。我以为我很清楚模
facebook - 找不到*确切*我的应用程序提交错误的地方(由于开放图故事的翻译问题而被拒绝)
我已经提交了一个自定义的开放图表故事，但它被拒绝并显示以下消息: 打开图表捐赠(行动类型)提交内容、操作、对象和使用说明必须以英文提交。您可以在应用程序面板的“本地化”选项卡中翻译操作和对象。如果我
boolean - 如何在不进行类型转换的情况下确定“确切”一个 boolean 值是否为真？
给定一个任意的 boolean 值列表，确定其中一个恰好为真的最优雅的方法是什么？最明显的 hack 是类型转换:将 false 转换为 0，将 true 转换为 1，然后对它们求和，并返回 sum
c++ - extern "C"---何时*确切*使用？
这个问题在这里已经有了答案: When to use extern "C" in simple words? [duplicate] (7 个答案) 关闭 9 年前。如果您想将此问题标记为重复问题

首页

博学

6Ren·AI

商城

elasticsearch - 如何使用elasticsearch-mapper-attachments插件在Elasticsearch中获取文件中突出显示的字段的确切页码和行号