gpt4 book ai didi

java - 配置 SOLR 应用程序以索引 pdf 文档

转载 作者:行者123 更新时间:2023-12-01 13:47:21 25 4
gpt4 key购买 nike

我对 Apache SOLR/Lucene 完全陌生,但想用它来索引 PDF 文档。

我已经按照官方教程开始学习了:

[Apache SOLR 4.6.0 Tutorial][1]

我能够到达教程中标题为“索引数据”的部分,其中它们索引了两个 .xml 文件。

但是,我无法跟踪该部分以及之后的所有部分中以下几行之后的任何内容。

You have now indexed two documents in Solr, and committed these changes. You can now search for "solr" by loading the "Query" tab in the Admin interface, and entering "solr" in the "q" text box. Clicking the "Execute Query" button should display the following URL containing one result... 

信息太少,太困惑了。

任何人都可以指出一些有关 SOLR 的基本教程,该教程教如何配置 SOLR 并在之后索引 .pdf 文档。

从教程看来,Solr Cell (ExtractingRequestHandler) 是正确的选择。但这是什么以及如何将它与我引用教程中的步骤进行的设置一起使用是我不理解/理解的。

有一些关于堆栈溢出以及使用 SOLR 进行 pdf 索引的问题,但它们要么太具体,要么答案对于我的理解来说太高了。我需要一个使用 SOLR 进行 pdf 索引的基本分步教程。

感谢您的阅读!

最佳答案

首先,您应该了解 Solr 的实际工作原理。

不是字面上的意思,而是接近的东西:

->:可以翻译为

Solr 中的核心 -> SQL 中的表

Solr 中的一个文档 -> 表中的一条记录

文档可以有任意数量的字段(如表中的列)。 (ID、姓名、电子邮件等...)

字段有类型(就像变量(来自 Lucene 的类)(String、UUID 等...))字段可以被索引(可搜索)和存储(按原样检索)。

现在您必须决定您想要哪种实现。单核(表)实现是最简单的,但对于 Solr 的几乎所有用例,您都需要使用多核设置。

在您下载的 Solr 4.6.0 目录中,浏览到示例并使用以下命令运行 start.jar:java -Dsolr.solr.home=multicore -jar star.jar

打开http://localhost:8983/solr四处浏览,通过观察你会学到很多东西。

接下来转到示例下的multicore目录。

您将看到一个 solr.xml 文件。打开它。在底部您将看到核心的定义。添加一行包含 YOUR_CORE_NAME

完成后,保存文件,运行 solr。您将看到一系列错误:找不到 YOUR_CORE_NAMEsolrconfig.xmlschema.xml

这些文件很重要,因为:

solrconfig.xml:包含 Solr 运行时核心(表)的行为方式。高度可定制,非常有用,但对于开始 Solr 的人来说太多了(你是即时学习的)。现在,我将让您从其他核心之一复制 solrconfig.xml

schema.xml:这就像您的表定义。这是您定义“字段”(列)的地方。查看其他内核的架构并阅读

http://wiki.apache.org/solr/SchemaXml

制作一个简单的架构,3 个字段。密切关注分析器,现在使用 Lucene 标准分析器。它非常好,适用于大多数用例。

现在的目录结构:在multicore内,创建一个名为YOUR_CORE_NAME的文件夹。

YOUR_CORE_NAME下:创建一个conf文件夹并将您的solrconfig.xmlschema.xml放入其中文件夹。

启动solr。现在应该可以正常启动,不会出现任何错误。

完成后,继续调整 schema.xml 直到找到您想要的内容。

关于java - 配置 SOLR 应用程序以索引 pdf 文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20262801/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com