gpt4 book ai didi

lucene - Lucene/ElasticSearch 的体面的多语言词干分析器或分析器?

转载 作者:行者123 更新时间:2023-12-02 22:20:54 26 4
gpt4 key购买 nike

我很好奇是否有通用分析器可以很好地提取/分析可能是不同语言的文本。对于某些任务,进行适当的多语言搜索(例如将字段 name 拆分为 name.englishname.french 等)似乎有点过头了。

是否有分析器可以去除后缀(例如“dogs”->“dog”)并且不仅仅适用于英语?我真的不在乎它是否进行语言检测等,并且只在例如浪漫和日耳曼语言可能就足够了。或者,质量损失是否严重到只使用特定于语言的分析器和特定于语言的查询总是值得的?

最佳答案

您最好的选择是使用 icu 分析仪。它们对规范化很有用,但对词干等内容不太有用,因为它本质上是特定于语言的。

此外,可以使用单独的语言字段并根据该字段的值使用不同的分析器。因此,您可以将这两种方法结合起来,并使用专门的分析器回退到您关心的 icu 分词器和支持语言:http://www.elasticsearch.org/guide/reference/mapping/analyzer-field/

您可能想在最近的柏林流行语 session 上观看有关多语言支持的演示:http://www.youtube.com/watch?v=QI0XEshXygo .里面有很多好东西。跳转到第 27 分钟,查看使用不同分析器的示例。

关于lucene - Lucene/ElasticSearch 的体面的多语言词干分析器或分析器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17352930/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com