- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用elasticsearch-mapper-attachments插件从文件中获取数据。有什么方法可以获取突出显示的字段的准确页码和行号?我当前的索引映射如下。
{
"type_name" : {
"content" : {"term_vector" : "with_positions_offsets"}
}
}
最佳答案
我在“Mapper附件”插件中进行了一些挖掘,发现它非常不灵活且性能不佳。您还混合了各种顾虑(索引编制/文本提取),这将使性能调整更加复杂。
第一:您最好自己安装Tika并提取文本(这也可能会提高性能,因为您没有通过HTTP将大型的base64编码的BLOB发送到ES上,并且为该数据库保留了单独的堆/进程文本提取目的)。
第二:Is it possible to extract text by page for word/pdf files using Apache Tika?
第三:可能的话,可以将每个页面作为一个单独的字段编制索引(例如“pdf_page_1”,“pdf_page_2”等),然后您可能会获得每个匹配的字段名称,从而能够检索您匹配的页码。
另一种可能更灵活的解决方案是:a)使用PDF文件内容全部都在一个字段(数组)中索引您的文档,例如pdf_contents:[“第1页是这里,第2页是这里”],以及b)为pdf文件内容创建一个单独的索引,将每个页面作为一个单独的文档建立索引,包括页码字段。
然后,对您的“规范”结果列表进行一次查询,当您点击时,对pdf文件的内容索引进行后续查询,以过滤掉不在结果列表中的那些文档。
关于elasticsearch - 如何使用elasticsearch-mapper-attachments插件在Elasticsearch中获取文件中突出显示的字段的确切页码和行号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31674719/
通过多次搜索和pytorch文档本身,我可以发现在嵌入层内部有一个查找表,用于存储嵌入向量。我无法理解的是: 在这一层的培训期间究竟发生了什么? 权重是多少,以及这些权重的梯度是如何计算的? 我的直觉
当应用程序有大量数据(400M)要写入非阻塞套接字时,write() 返回EWOULDBLOCK 或EAGAIN 当发送缓冲区变满时。 当套接字被(e)轮询时,我有时会看到发送缓冲区中有 7M 空间(
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我经常阅读一些编程语言对模块的支持(“一流”)(OCaml,Scala,TypeScript [?]),并且最近偶然发现了这样的答案,即在Scala的显着特征中引用模块作为一流公民。 我以为我很清楚模
我已经提交了一个自定义的开放图表故事,但它被拒绝并显示以下消息: 打开图表捐赠(行动类型)提交内容、操作、对象和使用说明必须以英文提交。您可以在应用程序面板的“本地化”选项卡中翻译操作和对象。 如果我
给定一个任意的 boolean 值列表,确定其中一个恰好为真的最优雅的方法是什么? 最明显的 hack 是类型转换:将 false 转换为 0,将 true 转换为 1,然后对它们求和,并返回 sum
这个问题在这里已经有了答案: When to use extern "C" in simple words? [duplicate] (7 个答案) 关闭 9 年前。 如果您想将此问题标记为重复问题
我是一名优秀的程序员,十分优秀!