Solr 复合词分词器 - 结果被视为 OR 语句-6ren

Solr 复合词分词器 - 结果被视为 OR 语句

转载作者：行者123 更新时间：2023-12-02 11:21:10

26

4

荷兰语和德语确实有可以组合成新单词的单词；复合词。

例如，“accountmanager”被视为一个单词，由“account”和“manager”这两个单词组合而成。我们的用户将在文档和查询中使用“accountmanager”和“account manager”，并期望这两个查询得到相同的结果。

为了能够分解(分割)单词，solr 有一个我在架构中配置的字典过滤器:

<filter class="solr.DictionaryCompoundWordTokenFilterFactory" dictionary="../../compound-word-dictionary.txt" minWordSize="8" minSubwordSize="4" maxSubwordSize="15" onlyLongestMatch="true"/>

compound-word-dictionary.txt 文件包含用于分解复合词的单词列表。在此列表中，您会发现例如“帐户”和“经理”等词。

当使用查询“accountmanager”搜索时，在 Solr 调试器中分析时，分解结果正常:(术语文本):

客户经理
帐户
经理

但是，此结果被视为 OR 语句，并查找其中至少包含一个术语的所有文档。我希望它的行为类似于 AND 语句(因此我只想要文档中同时包含术语“帐户”和“经理”的结果)。

我尝试将架构中的defaultOperator设置为“AND”，但是在使用edismax时，这会被忽略。因此，我将建议的 Min-should-Match 设置为 100% (mm=100%)，但同样没有得到任何期望的结果。调整架构中字典过滤器的属性不会将行为更改为“AND”。

有人在使用字典复合词标记工厂时遇到过这种行为，并且知道让它表现得像 AND 语句一样的解决方案吗？

最佳答案

它按预期工作，DictionaryCompoundWordTokenFilterFactory 只是添加它找到的“内部单词”，在本例中是“account”和“manager”，但也可能只是其中一个，例如单词是“accountbanana”并且字典中没有“banana”，只有“account”才会被添加。

这可以帮助人们寻找“manager”并找到包含“accountmanager”的文档。

为了获得您想要的行为(我知道您正在查询端应用此行为)，您可以使用使 accountmanager=“account manager” 的字典

关于Solr 复合词分词器 - 结果被视为 OR 语句，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11080287/

26

4

0

文章推荐： date - 按日期范围过滤

文章推荐：当对象列表中另一个字段最小时，Java 8 获取对象的一个字段

文章推荐： run方法中没有循环的Java线程

ios - UILabel 分词
大家好，其实我快疯了，我竭尽全力解决这个简单的问题。如您所见，狭窄空间中的简单标签导致单个单词“Verification”被分成两行，这当然是 Not Acceptable 。我知道我只能将行数设
Python - 分词、替换单词
我正在尝试创建类似句子的东西，其中包含随机单词。具体来说，我会有类似的东西: "The weather today is [weather_state]." 并且能够做一些事情，比如找到 [brack
响应式导航栏中的 HTML 分词
我希望我的导航栏 (.top-bar) 比现在更具响应性。目前，如果屏幕缩小太多，.top-bar-right 类只会下降到 .menu 类之下。我需要 .top-bar-right 来分割自己或打破
C 命令行参数，分词
我正在尝试编写一个函数来将命令行参数解析为一个 vector 。问题是我似乎无法消除使用全局指针数组作为 vector 。代码是: /** parse command line arguments
Python:用一个字符序列找出所有可能的单词组合(分词)
我正在做一些分词实验，如下所示。 lst是一个字符序列，output是所有可能的词。 lst = ['a', 'b', 'c', 'd'] def foo(lst): ... retu
c++ - 动态规划 - 分词
我正在尝试解决 this问题。问题如下给定一个输入字符串和一个单词字典，看看是否可以将输入字符串分割成以空格分隔的字典单词序列。字典是一个字符串数组。我的方法是以下递归 fn 并存储递归调用的结
java - leetcode 139. 分词
我正在研究这个问题。似乎我找到了正确的答案并返回 true，但随后它被 false 覆盖。Java 新手，抱歉，如果这是一个虚拟问题。我如何返回 true？预先感谢您问题给定一个字符串 s 和一本单
javascript - 分词 css 选项无效
我正在使用 word-break css 属性，但即使是一个简单的示例似乎也无法让它工作。我的代码是: react : render() { return ( A very very lo
css - 内联元素的 Firefox 分词
我正在尝试更改 word-break某些内联元素的属性，例如和以获得更好的页面内容流。 Firefox 似乎只识别显示为 block 的元素的分词属性(例如 )，而 Chrome 尊重分词的请求
C - 从 scanf 分词
我想标记用户输入的任何字符串。我的代码是这样的: #include #include #include int main(void) { char str; char *toke
html - 分词 css 未相应对齐
有没有办法让单词正确对齐？我尝试添加 word-break 和 word-wrap 属性，但没有任何不同。 Subtotal S$42.50 Tota
linux - 防止子字符串中的 Bash 分词
如何防止 Bash 拆分子字符串中的单词？这是一个有点人为的例子来说明这个问题: touch file1 'foo bar' FILES="file1 'foo bar'" ls -la $FILES
css - 分词，更喜欢正常，但如果不可能，则全部中断
我正在创建一个非常薄的页面(它被打印在收据纸上:56 毫米宽) 我正在尝试显示一些文本(在本例中为运送选择)。有时这个文本是正常的一些间隔单词，例如'Signed for 1st Class'，有时是
bash - 如何在 bash 中控制 IFS 分词
我正在尝试弄清楚 IFS 如何影响 bash 中的分词。该行为依赖于上下文，其方式似乎与分词的直觉不符。总体思路似乎很简单。引自 bash 手册页: The shell treats each ch
html - iOS7 webkit 上的 Span 分词
今天我 Handlebars 机升级到 iOS7，发现了一些奇怪的问题。 (博客.niwyclin.org)这是我网站的测试帖子页面在桌面浏览器上它看起来不错。我用Responsivator查了一
javascript - chrome 中标点符号的 js 分词、全部使用出现问题
我在 jsfiddle 中有以下示例: https://jsfiddle.net/27L545rr/3/ Word-break should cause just the extra charact
java - 解析/扫描/分词 "raw XML"
我有一个应用程序，我需要解析或标记 XML 并保留原始文本(例如，不解析实体、不转换属性中的空格、保持属性顺序等)在 Java 程序中。我今天花了几个小时尝试使用 StAX、SAX、XSLT、Tag
css - 如何使用 CSS 使 Firefox 分词？
到目前为止，这是我的代码: ssssssssssssssssssssssssssssssssssssss 但是， word-wrap:break-word; word-br
html - CSS3 分词 Firefox 和 Chrome 输出不同
我正在尝试使用 word-break打破一个长字符超过其父宽度的单词。在这个例子中，我有一个与 width:43px和里面的“玩”字。在 chrome 中，这个词很合适，但在 Firefox 中，
python - 为什么 gensim 的 simple_preprocess Python 分词器似乎跳过了 "i"分词？
list(gensim.utils.simple_preprocess("i you he she I it we you they", deacc=True)) 给出结果: ['you', 'he'

首页

博学

6Ren·AI

商城

Solr 复合词分词器 - 结果被视为 OR 语句