gpt4 book ai didi

search - 在具有规范化数据的应用程序中进行多语言自由文本搜索?

转载 作者:行者123 更新时间:2023-12-04 23:53:05 26 4
gpt4 key购买 nike

我们的数据库中有枚举、自由文本和引用字段等。

每个枚举都有自己的翻译,自由文本可以是任何语言。我们想做高效的大规模自由文本搜索和基于枚举值的搜索。

我知道像 Solr 这样的解决方案很好,但这意味着我们必须用系统中所有语言的所有文本索引整个非规范化记录。这似乎有点过分。

搜索多语言规范化数据的推荐方法有哪些?以前有人解决这个问题吗?

最佳答案

ETL。提取、转换、加载。换句话说,从现有数据库中获取数据,对其进行转换(不仅仅是对其进行非规范化)并将其加载到 SOLR 中。 SOLR db 将比现有数据库小很多,因为没有关系开销。 SOLR 搜索减轻了现有数据库服务器的大部分负载。

仔细看看如何配置和使用 SOLR 并了解 SOLR 内核。您可能希望将某些语言放在单独的核心中,因为这样您可以更有效地使用 SOLR 中的各种词干算法。但即使使用多语言数据,您仍然可以使用双元组(例如用于中文分析)。

拥有多个内核会使搜索变得更加复杂,因为您可以尝试使用单一语言索引或所有语言索引。但对语言数据进行分组并应用语言特定的停用词、 protected 词、词干提取和语言分析工具要有效得多。

通常你会在索引中包含一些关键数据,这样当你通过 SOLR 搜索找到一条记录时,你就可以直接引用到源数据库中。此外,您可以将规范化和非规范化数据放在一起,例如,枚举可以记录在英语规范化字段中,也可以记录在与自由文本相同语言的非规范化字段中。可以复制字段以应用两种不同的分析和过滤处理。

为了了解 SOLR 的工作原理以及如何最好地配置它,用一部分数据进行试验是值得的。

关于search - 在具有规范化数据的应用程序中进行多语言自由文本搜索?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5754497/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com