gpt4 book ai didi

solr 3.6.1 在破折号处分割单词边界

转载 作者:行者123 更新时间:2023-12-01 05:26:41 25 4
gpt4 key购买 nike

我们有一个数字除以破折号的故障单格式,即 n-nnnnnnn

链接 http://lucidworks.lucidimagination.com/display/solr/Tokenizers (在 Standard Tokenizer 和 Classic Tokenizer 部分)暗示在支持 Unicode 标准附件 UAX#29 之前和之后:

单词在连字符处拆分,除非单词中有数字,在这种情况下,不会拆分标记并保留数字和连字符。

我们的 Solr 安装仅使用 StandardTokenizerFactory,但这种故障单格式在仪表板的查询中被拆分。我是 solr/lucene 的新手。我已经下载了 3.6.1 的代码,但注释暗示了相反的意思(除非虚线数字仍被视为数字)。我无法遵循 Lex 处理:

  • 产生的 token 有以下类型:
  • :字母和数字字符序列
  • :一个数字
  • :来自南部和东南部的字符序列
  • 亚洲语言,包括泰语、老挝语、缅甸语和高棉语
  • :单个 CJKV 表意字符
  • :单个平假名字符

  • 任何人都可以澄清这一点谢谢。

    最佳答案

    您需要正则表达式模式标记器。此标记器使用 Java 正则表达式将输入文本流分解为标记。模式参数提供的表达式可以解释为分隔标记的分隔符,或者匹配应该作为标记从文本中提取的模式。

    Javadocs for java.util.regex.Pattern有关 Java 正则表达式语法的更多信息。

    关于solr 3.6.1 在破折号处分割单词边界,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13499912/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com