gpt4 book ai didi

Elasticsearch Pattern_capture 过滤器也会发出与模式不匹配的标记

转载 作者:行者123 更新时间:2023-11-29 02:57:13 24 4
gpt4 key购买 nike

我有一个案例,我必须从文本中找到的电子邮件中提取域部分。我使用 uax_url_email 分词器将电子邮件创建为单个。我有一个 pattern_capture 过滤器,它将发出“@(.+)”模式字符串。但是 uax_url_email 也返回不是电子邮件的单词,模式捕获过滤器不会过滤它。有什么建议吗?

"custom_analyzer":{
"tokenizer": "uax_url_email",
"filter": [
"email_domain_filter"
]
}
"filter": {
"email_domain_filter":{
"type": "pattern_capture",
"preserve_original": false,
"patterns": [
"@(.+)"
]
}
}

输入字符串:“我的电子邮件 ID 是 xyz@gmail.com

输出标记:my, email, id, is, gmail.com

但我只需要gmail.com

最佳答案

“如果没有任何模式匹配,或者如果 preserveOriginal 为真,则原始标记将被保留。”

https://lucene.apache.org/core/4_4_0/analyzers-common/org/apache/lucene/analysis/pattern/PatternCaptureGroupTokenFilter.html

尝试添加与其他标记匹配但不包含捕获组(例如“.*”)的模式

关于Elasticsearch Pattern_capture 过滤器也会发出与模式不匹配的标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25357576/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com