- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对 Apache SOLR/Lucene 完全陌生,但想用它来索引 PDF 文档。
我已经按照官方教程开始学习了:
[Apache SOLR 4.6.0 Tutorial][1]
我能够到达教程中标题为“索引数据”的部分,其中它们索引了两个 .xml 文件。
但是,我无法跟踪该部分以及之后的所有部分中以下几行之后的任何内容。
You have now indexed two documents in Solr, and committed these changes. You can now search for "solr" by loading the "Query" tab in the Admin interface, and entering "solr" in the "q" text box. Clicking the "Execute Query" button should display the following URL containing one result...
信息太少,太困惑了。
任何人都可以指出一些有关 SOLR 的基本教程,该教程教如何配置 SOLR 并在之后索引 .pdf 文档。
从教程看来,Solr Cell (ExtractingRequestHandler) 是正确的选择。但这是什么以及如何将它与我引用教程中的步骤进行的设置一起使用是我不理解/理解的。
有一些关于堆栈溢出以及使用 SOLR 进行 pdf 索引的问题,但它们要么太具体,要么答案对于我的理解来说太高了。我需要一个使用 SOLR 进行 pdf 索引的基本分步教程。
感谢您的阅读!
最佳答案
首先,您应该了解 Solr 的实际工作原理。
不是字面上的意思,而是接近的东西:
->:可以翻译为
Solr 中的核心 -> SQL 中的表
Solr 中的一个文档 -> 表中的一条记录
文档可以有任意数量的字段(如表中的列)。 (ID、姓名、电子邮件等...)
字段有类型(就像变量(来自 Lucene 的类)(String、UUID 等...))字段可以被索引(可搜索)和存储(按原样检索)。
现在您必须决定您想要哪种实现。单核(表)实现是最简单的,但对于 Solr 的几乎所有用例,您都需要使用多核设置。
在您下载的 Solr 4.6.0 目录中,浏览到示例并使用以下命令运行 start.jar:java -Dsolr.solr.home=multicore -jar star.jar
打开http://localhost:8983/solr四处浏览,通过观察你会学到很多东西。
接下来转到示例下的multicore
目录。
您将看到一个 solr.xml
文件。打开它。在底部您将看到核心的定义。添加一行包含 YOUR_CORE_NAME
完成后,保存文件,运行 solr
。您将看到一系列错误:找不到 YOUR_CORE_NAME
的 solrconfig.xml
、schema.xml
。
这些文件很重要,因为:
solrconfig.xml
:包含 Solr 运行时核心(表)的行为方式。高度可定制,非常有用,但对于开始 Solr 的人来说太多了(你是即时学习的)。现在,我将让您从其他核心之一复制 solrconfig.xml
。
schema.xml:这就像您的表定义。这是您定义“字段”(列)的地方。查看其他内核的架构并阅读
http://wiki.apache.org/solr/SchemaXml
制作一个简单的架构,3 个字段。密切关注分析器,现在使用 Lucene 标准分析器。它非常好,适用于大多数用例。
现在的目录结构:在multicore
内,创建一个名为YOUR_CORE_NAME
的文件夹。
在YOUR_CORE_NAME
下:创建一个conf
文件夹并将您的solrconfig.xml
和schema.xml
放入其中文件夹。
启动solr
。现在应该可以正常启动,不会出现任何错误。
完成后,继续调整 schema.xml
直到找到您想要的内容。
关于java - 配置 SOLR 应用程序以索引 pdf 文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20262801/
这几天我一直在努力。我一直在自学 CSS,所以对菜鸟好一点。我正在创建一个推荐 slider 。推荐以 3 个 block 显示。我希望前 2 个下降,第 3 个上升。但是当 slider 激活时,无
我最近开始学习 Nodejs,现在我很困惑我的网络应用程序使用什么,html 还是 ejs (Express)。 Ejs 使用 Express 模块,而 .html 使用 HTML 模块。我的第一个问
假设我们有一个 PostgreSQL 表contacts,每条记录都有一堆带标签的电子邮件地址(标签和电子邮件对)——其中一个是“主要”。 存储方式如下: id 主键 电子邮件 文本 email_la
我成功为一种新的tesseract语言编写了traineddata文件,但是当我完成时,我继续收到以下错误: index >= 0 && index = 0 && 索引 < size_used_ :E
这个问题已经有答案了: How to deal with SettingWithCopyWarning in Pandas (21 个回答) 已关闭 4 年前。 假设我有一个像这样的数据框,第一列“密
如果我有一个位置或行/列同时用于 A 和 B 位置,请检查 B 是否与 A 成对角线? 1 2 3 4 5 6 7 8 9 例如,我如何检查 5 是否与 7 成对角线? 此外,如果我检查 4 是
MongoDB:索引 一、 创建索引 默认情况下,集合中的_id字段就是索引,我们可以通过getIndexes()方法来查看一个集合中的索引 > db.user.getIndexes() [ { "v
一、索引介绍 索引是一种用来快速查询数据的数据结构。 B+Tree就是一种常用的数据库索引数据结构,MongoDB采用B+Tree 做索引,索引创建在colletions上。 MongoDB不使用索引
我无法决定索引。 就像我有下面的查询需要太多时间来执行: select count(rn.NODE_ID) as Count, rnl.[ISO_COUNTRY_CODE] as Cou
我有这些表: CREATE TABLE `cstat` ( `id_cstat` bigint(20) NOT NULL, `lang_code` varchar(3) NOT NULL,
我正在尝试找到一种方法来提高包含 IP 范围的 mysql 表的性能(在高峰时段每秒最多有 500 个 SELECT 查询(!),所以我有点担心)。 我有一个这种结构的表: id smallint(
jquery index() 似乎无法识别元素之一,总是说“无法读取未定义的属性‘长度’”这是我的代码。mnumber 是导致问题的原因。我需要 number 和 mnumber 才能跟踪使用鼠标,并
我们有一个包含近 4000 万条记录的 MongoDB 集合。该集合的当前大小为 5GB。此集合中存储的数据包含以下字段: _id: "MongoDB id" userid: "user id" (i
文档说:如果你有多个字段的复合索引,你可以用它来查询字段的开始子集。所以如果你有一个索引一个,乙,丙你可以用它查询一种一个,乙a,b,c 我的问题是,如果我有一个像这样的复合索引一个,乙,丙我可以查询
我正在使用 $('#list option').each(function(){ //do stuff }); 循环列表中的选项。我想知道如何获取当前循环的索引? 因为我不想让 var i = 0;循
MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度。 打个比方,如果合理的设计且使用索引的MySQL是一辆兰博基尼的话,那么没有设计和使用索引的MySQL
SQLite 索引(Index) 索引(Index)是一种特殊的查找表,数据库搜索引擎用来加快数据检索。简单地说,索引是一个指向表中数据的指针。一个数据库中的索引与一本书后边的索引是非常相似的。
我是 RavenDB 的新手。我正在尝试使用多 map 索引功能,但我不确定这是否是解决我的问题的最佳方法。所以我有三个文件:Unit、Car、People。 汽车文件看起来像这样: { Id: "
我有以下数据,我想根据范围在另一个表中建立索引 我想要实现的是,例如,如果三星的销售额为 2500,则折扣为 2%,低于 3000 且高于 1000 我知道它可以通过索引来完成,与多个数组匹配,然后指
我正在检查并删除 SQL 数据库中的重复和冗余索引。 所以如果我有两个相同的索引,我会删除。 例如,如果我删除了重叠的索引... 索引1:品牌、型号 指标二:品牌、型号、价格 我删除索引 1。 相同顺
我是一名优秀的程序员,十分优秀!