gpt4 book ai didi

java - 为什么preserveOriginal 不能像java doc 中描述的那样工作?

转载 作者:行者123 更新时间:2023-12-02 02:35:52 24 4
gpt4 key购买 nike

我有以下配置:

@AnalyzerDef(name = "autocompleteNGramAnalyzer",

tokenizer = @TokenizerDef(factory = StandardTokenizerFactory.class),

filters = {

@TokenFilterDef(factory = WordDelimiterFilterFactory.class,
params = @Parameter(name = "preserveOriginal", value = "1"))

保留原始文档:

/** * Causes original words are preserved and added to the subword list (Defaults to false) *

* "500-42" => "500" "42" "500-42" */

根据这个我添加了以下单词:

500-42

我重建索引,重新打开 Luke 并看到以下内容:

enter image description here

只有 50042 token ,没有 500-42

为什么?

最佳答案

您的 WordDelimiterFilterFactory 仅适用于提供给它的标记,这些标记可能不是原始文本。

在您的情况下,您使用 StandardTokenizer,因此当 WordDelimiterFilterFactory 开始处理字符串时,它已被拆分为两个标记(500 42)。

关于java - 为什么preserveOriginal 不能像java doc 中描述的那样工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46339730/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com