gpt4 book ai didi

java - 如何获取ZZ_CMAP_PACKED中的word boundary?

转载 作者:行者123 更新时间:2023-11-30 12:02:42 24 4
gpt4 key购买 nike

我正在尝试编写我的第一个 Elasticsearch 分析插件,我从 github 上找到了一个可扩展标准分析器插件项目:elasticsearch-analysis-standardext ,在项目中它提供了以下代码:

   /** 
* Word Boundary "character classes" that are used in the ZZ_CMAP_PACKED
* string
*/
public static final Character WB_CLASS_BREAK = '\0';
public static final Character WB_CLASS_LETTER = '\176';
public static final Character WB_CLASS_NUMERIC = '\200';
public static final Character WB_CLASS_MID_LETTER = '\202';
public static final Character WB_CLASS_MID_NUMBER = '\203';
public static final Character WB_CLASS_MID_NUMBER_LETTER = '\204';
public static final Character WB_CLASS_EXTENDED_NUM_LETTER = '\205';
public static final Character WB_CLASS_SINGLE_QUOTE = '\212';
public static final Character WB_CLASS_DOUBLE_QUOTE = '\213';

这是 link

我想知道如何获取这些单词边界的字符类。

我问作者问题:How to get word boundaries "character classes"? #2 , 但作者似乎不会回答我的问题。

我尝试阅读 Unicode 文本分段文档:https://www.unicode.org/reports/tr29/ , 但我真的找不到我想要的东西,因为它很难阅读。

我从 lucene 存储库下载标准分析器代码,它在这里:https://github.com/apache/lucene-solr/tree/releases/lucene-solr/8.1.0/lucene/core/src/java/org/apache/lucene/analysis/standard

StandardTokenizerImpl.java 类似乎是从StandardTokenizerImpl.jflex 生成的,我可以借助jfex 获取这些单词边界的字符类吗?

感谢有人帮助我。

最佳答案

我发现我们可以从文档中得到这个世界的边界:https://www.unicode.org/reports/tr29/#Word_Boundaries , 自从项目 elasticsearch-analysis-standardext确实是老版本的elasticsearch。它不适用于 Elasticsearch 版本 = 7.3.2。

而且我们可以发现现在Lucene不支持像ALetter这样的简单世界边界,它的格式将是

MidLetterEx         = [\p{WB:MidLetter}\p{WB:MidNumLet}\p{WB:SingleQuote}] 

从文件StandardTokenizerImpl.jflex可以看出

所以如果你想从ZZ_CMAP_PACKED中获取世界边界,你应该引用文档Word_Boundaries .

如果您想编写自定义 StandardTokenizer,这可能会对您有所帮助。

也可以引用Lucene项目中的ClassicTokenizer,对你有帮助!

关于java - 如何获取ZZ_CMAP_PACKED中的word boundary?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58353104/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com