- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试编写我的第一个 Elasticsearch 分析插件,我从 github 上找到了一个可扩展标准分析器插件项目:elasticsearch-analysis-standardext ,在项目中它提供了以下代码:
/**
* Word Boundary "character classes" that are used in the ZZ_CMAP_PACKED
* string
*/
public static final Character WB_CLASS_BREAK = '\0';
public static final Character WB_CLASS_LETTER = '\176';
public static final Character WB_CLASS_NUMERIC = '\200';
public static final Character WB_CLASS_MID_LETTER = '\202';
public static final Character WB_CLASS_MID_NUMBER = '\203';
public static final Character WB_CLASS_MID_NUMBER_LETTER = '\204';
public static final Character WB_CLASS_EXTENDED_NUM_LETTER = '\205';
public static final Character WB_CLASS_SINGLE_QUOTE = '\212';
public static final Character WB_CLASS_DOUBLE_QUOTE = '\213';
这是 link
我想知道如何获取这些单词边界的字符类。
我问作者问题:How to get word boundaries "character classes"? #2 , 但作者似乎不会回答我的问题。
我尝试阅读 Unicode 文本分段文档:https://www.unicode.org/reports/tr29/ , 但我真的找不到我想要的东西,因为它很难阅读。
我从 lucene 存储库下载标准分析器代码,它在这里:https://github.com/apache/lucene-solr/tree/releases/lucene-solr/8.1.0/lucene/core/src/java/org/apache/lucene/analysis/standard
StandardTokenizerImpl.java
类似乎是从StandardTokenizerImpl.jflex
生成的,我可以借助jfex 获取这些单词边界的字符类吗?
感谢有人帮助我。
最佳答案
我发现我们可以从文档中得到这个世界的边界:https://www.unicode.org/reports/tr29/#Word_Boundaries , 自从项目 elasticsearch-analysis-standardext确实是老版本的elasticsearch。它不适用于 Elasticsearch 版本 = 7.3.2。
而且我们可以发现现在Lucene不支持像ALetter这样的简单世界边界,它的格式将是
MidLetterEx = [\p{WB:MidLetter}\p{WB:MidNumLet}\p{WB:SingleQuote}]
从文件StandardTokenizerImpl.jflex
可以看出
所以如果你想从ZZ_CMAP_PACKED中获取世界边界,你应该引用文档Word_Boundaries .
如果您想编写自定义 StandardTokenizer,这可能会对您有所帮助。
也可以引用Lucene项目中的ClassicTokenizer,对你有帮助!
关于java - 如何获取ZZ_CMAP_PACKED中的word boundary?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58353104/
我是一名优秀的程序员,十分优秀!