gpt4 book ai didi

search - Solr、特殊字符和拉丁文到西里尔文字符转换

转载 作者:行者123 更新时间:2023-12-02 17:18:40 25 4
gpt4 key购买 nike

我正在尝试使用 Solr(或 Lucene)设置一个搜索引擎,该引擎可以包含带有特殊字符的拉丁文文本(特殊字符包括 Ö 或 Ç 作为示例)或西里尔字符(示例包括 Б 或 б 和Жж)。

无论如何,我正在尝试找到一种解决方案,让我能够搜索包含这些字符的单词,但对于键盘上没有该键的用户...

示例是(在这里编造一些词语,希望不会冒犯任何人):

  • 搜索“book”时会找到“BÖÖK”
  • 搜索 XRAY 时会找到“ЖRAY”
  • 如果搜索 ZRAY、ZHRAY 或 žray,也会找到“ЖRAY”(有关 Cylric 到 Latin Char 音译的信息,请参阅 GOST 16876-71

那么,我该怎么办呢?我的一些理论是:

  • 允许为每个原始字符串存储多个文本字段,一个以原始形式存储,一个在第一遍音译中(例如,将 Ö 仅转换为 O,Ж 转换为 ž,但也转换为 X),然后第三种形式(从 ž 到 z 或 zh)-> 意味着我将存储大量数据...
  • 按原样存储在 solr 中,并让 Solr 发挥作用 -> 不知道这效果如何...在 solr 中看不到任何可以执行此操作的内容
  • 我还没有找到 Elixir ...

有什么想法吗?有人尝试过这个吗?

最佳答案

看看Solr's Analyzers, Tokenizers, and Token Filters这可以让您很好地了解您正在寻找的操作类型。

关于search - Solr、特殊字符和拉丁文到西里尔文字符转换,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7662547/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com