search - Solr 停用词魔法-6ren

search - Solr 停用词魔法

转载作者：行者123 更新时间：2023-12-04 02:21:06

24

4

我的停用词没有按预期工作。这是我的架构的一部分:

<fieldType name="text_general" class="solr.TextField">
    <analyzer type="index">
        <tokenizer class="solr.KeywordTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
    <analyzer type="query">
        <tokenizer class="solr.KeywordTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
</fieldType>

<fieldType class="solr.TextField" name="text_auto">
    <analyzer type="index">
        <charFilter class="solr.HTMLStripCharFilterFactory"/>
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="false"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
        <filter class="solr.ShingleFilterFactory" maxShingleSize="3" outputUnigrams="true" outputUnigramsIfNoShingles="false"/>
    </analyzer>
    <analyzer type="query">
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="false"/>
    </analyzer>
</fieldType>

<field name="deal_title_terms" type="text_auto" indexed="true" stored="false" required="false" multiValued="true"/>

<field name="deal_description" type="text_general" indexed="true" stored="true" required="false" multiValued="false"/>

在 stopwords.txt 中我有下一个词:the, is, a;
我的字段中还有下一个数据:

deal_description - 这是我的描述
deal_title_terms - 这是一个条款的交易标题(将按条款拆分)

当我尝试搜索 deal_description 时:
示例 1:“deal_description:his is the m”- 我希望返回包含 deal_description“This is the my description”的文档
示例 2:“deal_description: is th”- 我预计不会找到任何内容，因为“is”和“the”是停用词。

当我尝试搜索 deal_title_terms 时:
示例 1:“deal_title_terms: is”- 我预计不会找到任何内容，因为“is”是停用词。
示例 2:“deal_title_terms: is the deal”- 我希望“is”和“the”将被忽略，并找到术语“deal”。
示例 3:“deal_title_terms: title a terms”- 我预计“a”将被忽略，并且会找到术语“title terms”。

问题 1:为什么停用词对“deal_description”字段不起作用？
问题 2:为什么没有为我的查询删除字段“deal_title_terms”停用词？(当我尝试查找title a terms时，它不会找到“title terms”术语)
问题 3:有没有办法在搜索结果中显示停用词但阻止它们搜索？示例:

数据:这是很酷的搜索引擎
搜索查询:“is coo”-> 返回“This is cool search engine”
搜索查询:“是”-> 什么都不返回
搜索查询:“This coll”-> 返回“This is cool search engine”

问题 4:我在哪里可以找到停用词在 solr 中如何工作的详细说明(可能有示例)？因为它看起来像魔术。

最佳答案

问题 1 的答案:替换“KeywordTokenizerFactory”，因为它没有实际标记化，因此整个输入字符串保留为单个标记。改用 StandardTokenizerFactory。

或者使用下面的字段类型。

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

停用词将按预期用于“deal_description”字段。

问题 3 的答案:是的。仅在 type="query"的分析器中添加 StopFilterFactory。这将阻止他们在索引时搜索而不是添加它们。

问题 4 的答案:https://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters

问题 2 的答案:您创建的自定义字段似乎不正确。文本必须首先使用分词器进行分词，但您首先使用过滤器。用solr分析页面查看对它的分析。

关于search - Solr 停用词魔法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29379159/

24

4

0

文章推荐： r - abline 不尊重 R 中的截距

文章推荐： wordpress - 链接 rel ="pingback"的目的是什么？

文章推荐： math - 线与线段相交

文章推荐： build - CMake 往返工作流程

javascript - 魔法
也许这是我忽略的某种默认行为，但目前我一点也不知道如何点击http://pinterest.com主页上的一个元素。网址实际上发生了变化，即:http://pinterest.com/pin/6016
ipython Octave 魔法
我在 ubuntu 上使用 python 2.7 根据documentation我应该能够从 ipython 运行 Octave : %install_ext octavemagic %load_ex
c++ - WhiteThresholdImage 魔法
如何在 magick++ 中使用 WhiteThresholdImage？我搜索它并找到了解决方案，所以我尝试: #include using namespace Magick; int ma
C++ 运算符 [] 魔法
这个问题在这里已经有了答案: C++ array[index] vs index[array] [duplicate] (4 个答案) 关闭 3 年前。我遇到了一种吸引数组元素的奇怪方式，我认为这
c++ - shared_ptr 魔法 :)
Mr. Lidström and I had an argument :) 先生。 Lidström 的声明是一个构造 shared_ptr p(new Derived);不要求 Base 具有虚拟析
c++ - 返回真还是返回假？魔法
我的 C++ 程序在从 VoIP 数据包中提取音频时遇到问题。它在 Linux 和 OpenBSD 上的 amd64 和 x86 上运行良好，但是当我在 ARM 上的 OpenBSD 上运行程序时，
javascript - 我对刷卡器和箭头按钮有疑问(魔法)
在滑动或更改 css 中的任何属性(非内联)之前不显示滑动器的箭头演示链接:http://sinneren.ru/side/giftormagic/views/index0.html 如何:查看我的
c++ - shared_ptr 魔法 :)
Mr. Lidström and I had an argument :) 先生。 Lidström 声称构造 shared_ptr p(new Derived);不需要 Base 具有虚拟析构函数:
Ruby 魔法学习笔记之一
1、向对象显示的发送消息我们可以向对象直接发送消息： Ruby代码复制代码代码如下: class HelloWorld def say(name) print "Hello,
sql - 将一列变成几列需要什么 SQL 魔法？
我需要打印一些票，每张票都有足够的空间来保存一组客户详细信息以及该客户订购的最多五件商品的代码。订购超过五件商品的客户将获得多张门票。所以从这样的订单表中，客户 |元素 ---------|----
python - 如何使调用者的命名空间可用于导入函数中的 IPython 魔法？
我正在尝试调用在 'timex.py' 中定义的一个小辅助函数，它是从 'caller.py' 调用的，而后者又应该通过“%run caller.py”从(PyCharm 的)IPython 控制台调
python - 魔法 python 不工作
我是 python 的新手，我正在做一个需要检测文件类型的项目，所以我使用了 magic 库，但是代码不工作，它引发了异常。测试代码为: import magic magic.from_file("
Jupyter:魔法 %qtconsole 不起作用
我正在尝试使用 jupyter 笔记本中的神奇 %qtconsole 。我正在本地连接到远程服务器。当在笔记本的单元格中输入 %qtconsole 并按 Shift-Enter 时，没有任何反应。没
php - 更好的日志记录设计或一些 SQL 魔法？
我竭力修改一些不是我写的旧日志记录代码，想知道您对它的看法。这是一个用 PHP 和 MySQL 编写的事件记录器，记录如下消息: Sarah added a user, slick101 Mike d
c# - 使用连接查询还是使用 LINQ 魔法？
最好是像这样进行联合查询: var employer = (from person in db.People join employer in db.Employe
objective-c - rootViewController 魔法
我正在PlainNote应用程序中挖掘source code 。我注意到 appdelegate 文件中没有 rootviewcontroller 的实例。仅将 navigationControlle
iphone - UIScrollview ContentSize 魔法
我正在双击 UIScrollView 中缩放 UIImageView。在 Interface Builder 中设置后工作正常。我在这里看到的神奇之处在于，当我放大/缩小时，scrollView 的
c++ - 明显的 CUDA 魔法
我正在使用 CUDA(如果差异很重要，实际上我正在使用 pyCUDA)并对数组执行一些计算。我正在启动一个具有 320*600 线程网格的内核。在内核中，我声明了两个包含 20000 个组件的线性数组
python - 这是什么 Python 魔法？
如果你这样做 {k:v for k,v in zip(*[iter(x)]*2)} 其中 x 是一个列表，你会得到一个字典，其中所有奇数元素作为键，偶数元素作为它们的值。哇! >>> x = [1,
c# - 跳过单一方法的所有 Umbraco 魔法
我刚刚被指派在使用 Umbraco 的项目中实现一项功能。我的工作基本上是生成特定的 XML 并将其返回给用户。但是我无法让它工作，因为当我创建新 Controller 时(我尝试创建 Control

首页

博学

6Ren·AI

商城

search - Solr 停用词魔法