- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这是我希望词干分析器执行的操作:
破:破
破:破
破:破
输入:输入
输入:输入
输入:输入
我已按如下方式对该字段进行了索引:
“ body ”: {
“类型”:“文本”,
“字段”:{
“词干提取”:{
“类型”:“文本”,
“分析器”:“英语”
}
}
}
当我查询“break and enter”时,我可以看到在 body.stemmed 字段中搜索的是:“break and enter”。看起来不错。
但是,当我查询“broke and enter”时,我得到:“broke and enter”。因此,显然,当使用“english”词干分析器时,“broke”不会变成“break”。
同样,“破而入”变成:“破而入”。因此,ES 显然不会将“损坏”或“损坏”更改为“中断”(根据此:snowball,我想解释了为什么如果这是使用的)。
那么,有没有办法指定一个“已知”的词干分析器来完成我想要做的事情?
最佳答案
您的要求可以通过 Dictionary Stemmer 来满足,它对词干进行字典查找。算法词干分析器在不了解词根的情况下进行词干提取,他们只是通过算法进行操作。
看看 Hunspell 词干分析器,认为它会完成这项工作:
https://www.elastic.co/guide/en/elasticsearch/guide/current/hunspell.html
关于elasticsearch - 是否有 Elasticsearch 的词干分析器可以将 "broken"更改为 "break",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40431071/
我想搜索一个单词及其在句子中的变体。例如,单词“happy”的变体是“happiest”、“happier”。有java库支持吗? 最佳答案 您可以使用Porter stemming algorith
愚蠢的,但我无法访问 NLTK 中的主干函数。 我打电话 import nltk nltk.stem.porter.step1ab() 但我被告知该对象没有 step1ab 属性。我想我以某种方式没有
我想将 DataFrame 的列和索引限制为这样的内容 ps = PorterStemmer() df_dic = pd.read_csv('inquirerbasic_clean.csv', sep
查看以下脚本tortest.py,它反复切换TOR电路并检查IP地址是否已更改: #!/usr/bin/env python2.7 # -*- coding: utf-8 -*- import jso
我是一名优秀的程序员,十分优秀!