solr 3.6.1 在破折号处分割单词边界-6ren

solr 3.6.1 在破折号处分割单词边界

转载作者：行者123 更新时间：2023-12-01 05:26:41

25

4

我们有一个数字除以破折号的故障单格式，即 n-nnnnnnn

链接 http://lucidworks.lucidimagination.com/display/solr/Tokenizers (在 Standard Tokenizer 和 Classic Tokenizer 部分)暗示在支持 Unicode 标准附件 UAX#29 之前和之后:

单词在连字符处拆分，除非单词中有数字，在这种情况下，不会拆分标记并保留数字和连字符。

我们的 Solr 安装仅使用 StandardTokenizerFactory，但这种故障单格式在仪表板的查询中被拆分。我是 solr/lucene 的新手。我已经下载了 3.6.1 的代码，但注释暗示了相反的意思(除非虚线数字仍被视为数字)。我无法遵循 Lex 处理:

产生的 token 有以下类型:

:字母和数字字符序列

:一个数字

:来自南部和东南部的字符序列

亚洲语言，包括泰语、老挝语、缅甸语和高棉语

:单个 CJKV 表意字符

:单个平假名字符

任何人都可以澄清这一点谢谢。

最佳答案

您需要正则表达式模式标记器。此标记器使用 Java 正则表达式将输入文本流分解为标记。模式参数提供的表达式可以解释为分隔标记的分隔符，或者匹配应该作为标记从文本中提取的模式。

见 Javadocs for java.util.regex.Pattern有关 Java 正则表达式语法的更多信息。

关于solr 3.6.1 在破折号处分割单词边界，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13499912/

25

4

0

文章推荐： transactions - Sybase 锁定策略

文章推荐： oop - Symfony2 - 带有类和扩展类的 Validation.yml

文章推荐： Python - Tkinter RadioButton If 语句

Javascript正则表达式验证数字字符之间有 - (破折号)
我正在尝试使用 Javascript Regex 验证以下格式基本上破折号之前的第一组数字只能是 3 个数字字符。而破折号后面的字符只能是两个或三个数字字符。不允许使用其他字符或空格。我看过几篇关于
regex - 替换特殊字符(破折号)
我试图用 gsub 替换我认为是标准的破折号。我正在测试的代码是: gsub("-", "ABC", "reported – estimate") 但是，这没有任何作用。我将破折号复制并粘贴到 htt
plotly - 如何从可编辑表中更新绘图/破折号？
我有一个带有可删除行和列的破折号 DataTable 对象。我想根据可见行更新图形。我不确定如何创建回调以及要传递哪些参数。在浏览器中删除行时，存储在表对象中的数据实际上可能不会更改。 from da
python - 突出显示超过一周的日期单元格!破折号
我正在尝试为超过一周前的日期着色。但当我这样做时，它会为所有日期着色。首先我在破折号代码之前尝试过它，它工作得很好 df = pd.DataFrame(list(collection_jobs.fi
python 正则表达式破折号
我正在尝试匹配 python 中的以下行，但是该行不起作用。示例文本为: usr/local/java/latest/bin/java-Djava.util.logging.config.file=
javascript - 用整数替换字母并用它放置 "-"(破折号)
我目前正在使用以下 JavaScript 代码: concatedSubstring.replace(/\//g, '-').replace(/[A-Za-z]/g, function(c){
regex_replace 不替换连字符/破折号
我在 postgreSQL 中使用 regex_replace 并试图去除字符串中不是字母或数字的任何字符。但是，使用此正则表达式: select * from regexp_replace('bli
jQuery:选择器问题(破折号)
我正在尝试选择类名中有破折号的对象 - 例如 $("div.nav-next"); 它不起作用 - 似乎破折号是问题所在 - 有什么想法吗？谢谢最佳答案试试这个。去掉“div”部分。 $('.na
c++ - 打印连字符/破折号？
如何将连字符打印到这样的输出中，例如 344-34-4333。如果这个 ID 是从一个没有连字符的文件中读取的，我怎样才能让它打印 xxx-xx-xxxx 3 to 2 to 4 ？最佳答案 std
css - 破折号:数字小部件背景颜色
数字小部件可以在同一个仪表板上多次使用吗？例如我想显示每个团队成员的当前分数，每个团队成员一个带有向上/向下箭头的小部件，将当前分数与最后一个分数进行比较，如果分数上升，则小部件背景为绿色，如果分数
Linux命令递归地用目录名称中的-(破折号)替换空格？
如何在 Linux 中使用命令行将目录名中的空格替换为 -(破折号)？注意:有数百个目录，每个目录都有子目录。我尝试了以下命令，但它返回一条消息'call: rename from to file
Android 破折号/虚线问题？
当我使用 android 虚线时，它在小屏幕上工作正常，但在 Samsung S3 设备和更高版本中不工作。截图和 drawable/dashline.xml XML
linux - 在制表符分隔的文本文件中替换单个字符、破折号
我正在使用 GNU bash 运行 Windows，版本 4.3.46(2)-release (x86_64-pc-msys) 可重现的例子我有一个很大的制表符分隔的文本文件，其中有很多行和列。这只
python - 破折号/阴谋在间隔= 500时歇斯底里
因此，我正在构建一个读取传感器数据并使用 plotly 绘制获取的数据的项目。使用 interval = 1000 效果很好，但 interval = 500 会导致图形变得歇斯底里。这是我的图表变
asp.net - 在正则表达式中允许-(破折号)
我有以下正则表达式，但我希望文本框允许使用破折号 ^[0-9a-zA-Z \/_?:.,\s]+$ 有人知道我该怎么做吗？最佳答案破折号必须是字符类中的第一个/最后一个字符，才能按字面使用: ^[
Apache RewriteRule，-(破折号)作为替换
我经常在 PHP MVC 应用程序中看到 Apache RewriteRule，如下所示: RewriteRule ^.*$ - [NC,L] Apache docs for the RewriteR
zsh - 带有前导 -(破折号)的文件的基本名称
我在 zsh 脚本中遇到基本名称问题。想象一下 $directory 包含一个带有前导破折号的文件名，在我的例子中它是“-Fast-”。然后脚本执行 folder=$(basename
php - Laravel 路由 - 破折号
我需要制作一条在变量后面有破折号的路线。我想要的很容易用代码解释(这是我尝试过的，但它不起作用) Route::any('tournament/{sportName}/{regionName}/{to
zsh - 带有前导 -(破折号)的文件的基本名称
我在 zsh 脚本中遇到基本名称问题。想象一下 $directory 包含一个带有前导破折号的文件名，在我的例子中它是“-Fast-”。然后脚本执行 folder=$(basename
regex - 要包含在正则表达式字边界中的连字符/破折号\b
简单的说: echo "xxxxx Tyyy zzzzz" | egrep "\byyy\b" (不匹配哪个是正确的) echo "xxxxx T-yyy zzzzz" | egrep "\byyy\

首页

博学

6Ren·AI

商城

solr 3.6.1 在破折号处分割单词边界