gpt4 book ai didi

c++ - 索引字符串和国际化

转载 作者:行者123 更新时间:2023-11-28 07:45:13 24 4
gpt4 key购买 nike

我最近提出了一种用于查找重复客户记录的索引算法。简而言之,这一切都非常有效。

但是,我的问题是我想找到“Diviér”应该匹配“Divier”,或者“Aether”应该匹配“Æther”。没问题,因为使用 libicu 或 boost::locale 可以删除变音符号,而问题是使用 wstring。然而,这是我的问题:规范化/拉丁化一个词会改变它的意思,匹配可能不再有意义。我想就这是否可以接受名称提供一些意见...

另外,如果有人有中文名字怎么办?这不会以这种方式归一化,对吗?

对于如何解决这个问题,您有什么建议吗?

最佳答案

您应该更多地查看地址而不是名称。最后,名称可能会产生误导。例如。根据国家/地区的不同,中文、俄语或日文字符的转录可能会有所不同。然后有时名称字段会很短以捕获一个人的全名(尤其是印度名字),这会导致任何一种看似随机的缩写。有时人们会省略中间名,有时则不会。有时会出现正确但不同的名称的拼写错误。

所以在我看来,名称应该是查找重复项中最不重要的标准。

关于c++ - 索引字符串和国际化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15039912/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com