solr - 使用 Solr 和 Tika 索引 PDF 内容-6ren

solr - 使用 Solr 和 Tika 索引 PDF 内容

转载作者：行者123 更新时间：2023-12-04 06:52:50

26

4

简要问题:我希望 Sitecore 使用 Solr 的内置功能(由 Tika 提供)为 PDF 的内容编制索引。我不确定如何配置 Sitecore 的索引以在 Solr(Tika) 中使用此功能。 (我想我需要编写一个自定义索引器。)

我正在使用 Sitecore 7(7.1 更新 1)并希望为 PDF(或其他富媒体类型)中的内容编制索引。我想为搜索目的索引这些数据。

我安装了 Solr (4.6.1) 并使用 Sitecore 7。当我为我的网站编制索引时，它会将所有文档保存到正确的 Solr 核心，我可以成功检索这些文档以进行显示。

使用 curl，我可以将 PDF 发送到我的 Solr 实例并将其编入索引。

curl "http://localhost:8983/solr/update/extract?literal._id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true"-F "myfile=@sample.pdf"

这行得通，我可以在我的 Sitecore 网络项目中阅读此内容并将其显示在 View 中，因此我知道我可以访问此数据。但是，我希望将数据附加到我在 Sitecore 中上传的项目。

我希望在我将 PDF 上传到 Sitecore 媒体库并发布该项目时，或者至少在我重新编制网站索引时发生这样的事情。

我目前正在浏览以下教程以了解有关编写自定义索引的一些知识(这里是第 1 部分的链接): http://www.sitecore.net/Community/Technical-Blogs/Getting-to-Know-Sitecore/Posts/2013/04/Sitecore-7-Search-Provider-Part-1-Manually-Triggered-Indexing.aspx

感谢您的耐心等待。

最佳答案

对于 Sitecore，在处理媒体数据时，Lucene 和 Solr 需要以一致的方式对内容进行索引(以便您可以在需要时在它们之间切换，并且仍然以相同的方式对数据进行索引)。由于 Tika 集成在很大程度上是 Solr 的事情，因此决定两者都应该使用 IFilters 的一般窗口概念进行索引(http://en.wikipedia.org/wiki/IFilter)

这意味着只要您在执行索引的机器上安装了适用于该 MIME 类型的正确 IFilter，“_content”计算字段就会被输出填充。

这并不意味着您不能使用 Solr Tika 集成，但它在默认情况下不受支持，需要自定义。

这将非常简单:

禁用“_content”计算字段
设置一个发布管道处理器来查看每个正在发布的项目
检查它是否是一个媒体项目
检查它是否是 PDF
发出命令将内容推送到您的 Solr 服务器以供 Tika 编制索引。

您可能想看看使用 IFilter 会得到什么结果，如果结果与您想要的足够接近，那么您可以使用它，如果 Tika 为您产生更好的结果，那么您应该能够切换到也就是说，尽管您可能会在单独的 Solr 核心中为您的媒体内容编制索引，因此您会丢失文档周围的任何 Sitecore 特定元数据。

一些可能有用的博文:

http://www.samjgriffin.com/blog/2013/11/06/sitecore-7-pdf-and-document-content-search/

http://www.sitecore.net/Community/Technical-Blogs/John-West-Sitecore-Blog/Posts/2013/04/Sitecore-7-Indexing-Media-with-IFilters.aspx

关于solr - 使用 Solr 和 Tika 索引 PDF 内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21761447/

26

4

0

文章推荐： C、从文件读入数组，逐个编号

文章推荐： .net - 具有级联 CRUD 操作的单元测试和假存储库实现

文章推荐： scala - 为什么 Scala 的类型推断器无法解决这个问题？

文章推荐： functional-programming - 为什么 (car '' (a b)) 评估为“报价”？

html - Z 索引 - 滑动过渡重叠有没有办法创建动态 z 索引？
这几天我一直在努力。我一直在自学 CSS，所以对菜鸟好一点。我正在创建一个推荐 slider 。推荐以 3 个 block 显示。我希望前 2 个下降，第 3 个上升。但是当 slider 激活时，无
node.js - 索引.ejs VS 索引.html
我最近开始学习 Nodejs，现在我很困惑我的网络应用程序使用什么，html 还是 ejs (Express)。 Ejs 使用 Express 模块，而 .html 使用 HTML 模块。我的第一个问
sql - 跨两列/数组的 PostgreSQL 搜索/索引(GIN 索引？)
假设我们有一个 PostgreSQL 表contacts，每条记录都有一堆带标签的电子邮件地址(标签和电子邮件对)——其中一个是“主要”。存储方式如下: id 主键电子邮件文本 email_la
Tesseract 索引 >= 0 && 索引 < size_used_ :Error:Assert failed Error
我成功为一种新的tesseract语言编写了traineddata文件，但是当我完成时，我继续收到以下错误: index >= 0 && index = 0 && 索引 < size_used_ :E
python - .loc[索引, 列] 和 .loc[索引][列] 之间有什么区别？
这个问题已经有答案了: How to deal with SettingWithCopyWarning in Pandas (21 个回答) 已关闭 4 年前。假设我有一个像这样的数据框，第一列“密
Android - 从位置 A(索引)检查位置 B(索引)是否在 GridView 布局中与它成对角线，而不管是否接近
如果我有一个位置或行/列同时用于 A 和 B 位置，请检查 B 是否与 A 成对角线？ 1 2 3 4 5 6 7 8 9 例如，我如何检查 5 是否与 7 成对角线？此外，如果我检查 4 是
MongoDB：索引
MongoDB：索引一、创建索引默认情况下，集合中的_id字段就是索引，我们可以通过getIndexes()方法来查看一个集合中的索引 > db.user.getIndexes() [ { "v
MongoDB——索引
一、索引介绍索引是一种用来快速查询数据的数据结构。 B+Tree就是一种常用的数据库索引数据结构，MongoDB采用B+Tree 做索引，索引创建在colletions上。 MongoDB不使用索引
SQLite 索引
我无法决定索引。就像我有下面的查询需要太多时间来执行: select count(rn.NODE_ID) as Count, rnl.[ISO_COUNTRY_CODE] as Cou
MySQL查询优化——索引
我有这些表: CREATE TABLE `cstat` ( `id_cstat` bigint(20) NOT NULL, `lang_code` varchar(3) NOT NULL,
mysql表性能升级(索引
我正在尝试找到一种方法来提高包含 IP 范围的 mysql 表的性能(在高峰时段每秒最多有 500 个 SELECT 查询(!)，所以我有点担心)。我有一个这种结构的表: id smallint(
jquery 索引()
jquery index() 似乎无法识别元素之一，总是说“无法读取未定义的属性‘长度’”这是我的代码。mnumber 是导致问题的原因。我需要 number 和 mnumber 才能跟踪使用鼠标，并
MongoDB 索引
我们有一个包含近 4000 万条记录的 MongoDB 集合。该集合的当前大小为 5GB。此集合中存储的数据包含以下字段: _id: "MongoDB id" userid: "user id" (i
MongoDB 索引
文档说:如果你有多个字段的复合索引，你可以用它来查询字段的开始子集。所以如果你有一个索引一个，乙，丙你可以用它查询一种一个，乙a,b,c 我的问题是，如果我有一个像这样的复合索引一个，乙，丙我可以查询
jQuery .each() 索引？
我正在使用 $('#list option').each(function(){ //do stuff }); 循环列表中的选项。我想知道如何获取当前循环的索引？因为我不想让 var i = 0;循
快速了解MySQL 索引
MySQL索引的建立对于MySQL的高效运行是很重要的，索引可以大大提高MySQL的检索速度。打个比方，如果合理的设计且使用索引的MySQL是一辆兰博基尼的话，那么没有设计和使用索引的MySQL
18、SQLite 索引
SQLite 索引（Index）索引（Index）是一种特殊的查找表，数据库搜索引擎用来加快数据检索。简单地说，索引是一个指向表中数据的指针。一个数据库中的索引与一本书后边的索引是非常相似的。
RavenDB MultiMap 索引
我是 RavenDB 的新手。我正在尝试使用多 map 索引功能，但我不确定这是否是解决我的问题的最佳方法。所以我有三个文件:Unit、Car、People。汽车文件看起来像这样: { Id: "
基于标准的 Excel 索引
我有以下数据，我想根据范围在另一个表中建立索引我想要实现的是，例如，如果三星的销售额为 2500，则折扣为 2%，低于 3000 且高于 1000 我知道它可以通过索引来完成，与多个数组匹配，然后指
SQL 索引 - 这是重叠的吗？
我正在检查并删除 SQL 数据库中的重复和冗余索引。所以如果我有两个相同的索引，我会删除。例如，如果我删除了重叠的索引... 索引1:品牌、型号指标二:品牌、型号、价格我删除索引 1。相同顺

首页

博学

6Ren·AI

商城

solr - 使用 Solr 和 Tika 索引 PDF 内容