gpt4 book ai didi

solr - 使用 Solr 和 Tika 索引 PDF 内容

转载 作者:行者123 更新时间:2023-12-04 06:52:50 26 4
gpt4 key购买 nike

简要问题:我希望 Sitecore 使用 Solr 的内置功能(由 Tika 提供)为 PDF 的内容编制索引。我不确定如何配置 Sitecore 的索引以在 Solr(Tika) 中使用此功能。 (我想我需要编写一个自定义索引器。)

我正在使用 Sitecore 7(7.1 更新 1)并希望为 PDF(或其他富媒体类型)中的内容编制索引。我想为搜索目的索引这些数据。

我安装了 Solr (4.6.1) 并使用 Sitecore 7。当我为我的网站编制索引时,它会将所有文档保存到正确的 Solr 核心,我可以成功检索这些文档以进行显示。

使用 curl,我可以将 PDF 发送到我的 Solr 实例并将其编入索引。

curl "http://localhost:8983/solr/update/extract?literal._id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true"-F "myfile=@sample.pdf"

这行得通,我可以在我的 Sitecore 网络项目中阅读此内容并将其显示在 View 中,因此我知道我可以访问此数据。但是,我希望将数据附加到我在 Sitecore 中上传的项目。

我希望在我将 PDF 上传到 Sitecore 媒体库并发布该项目时,或者至少在我重新编制网站索引时发生这样的事情。

我目前正在浏览以下教程以了解有关编写自定义索引的一些知识(这里是第 1 部分的链接): http://www.sitecore.net/Community/Technical-Blogs/Getting-to-Know-Sitecore/Posts/2013/04/Sitecore-7-Search-Provider-Part-1-Manually-Triggered-Indexing.aspx

感谢您的耐心等待。

最佳答案

对于 Sitecore,在处理媒体数据时,Lucene 和 Solr 需要以一致的方式对内容进行索引(以便您可以在需要时在它们之间切换,并且仍然以相同的方式对数据进行索引)。由于 Tika 集成在很大程度上是 Solr 的事情,因此决定两者都应该使用 IFilters 的一般窗口概念进行索引(http://en.wikipedia.org/wiki/IFilter)

这意味着只要您在执行索引的机器上安装了适用于该 MIME 类型的正确 IFilter,“_content”计算字段就会被输出填充。

这并不意味着您不能使用 Solr Tika 集成,但它在默认情况下不受支持,需要自定义。

这将非常简单:

  1. 禁用“_content”计算字段
  2. 设置一个发布管道处理器来查看每个正在发布的项目
  3. 检查它是否是一个媒体项目
  4. 检查它是否是 PDF
  5. 发出命令将内容推送到您的 Solr 服务器以供 Tika 编制索引。

您可能想看看使用 IFilter 会得到什么结果,如果结果与您想要的足够接近,那么您可以使用它,如果 Tika 为您产生更好的结果,那么您应该能够切换到也就是说,尽管您可能会在单独的 Solr 核心中为您的媒体内容编制索引,因此您会丢失文档周围的任何 Sitecore 特定元数据。

一些可能有用的博文:

http://www.samjgriffin.com/blog/2013/11/06/sitecore-7-pdf-and-document-content-search/

http://www.sitecore.net/Community/Technical-Blogs/John-West-Sitecore-Blog/Posts/2013/04/Sitecore-7-Indexing-Media-with-IFilters.aspx

关于solr - 使用 Solr 和 Tika 索引 PDF 内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21761447/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com