gpt4 book ai didi

java - 是否可以将所有相似的 Unicode 字符分组为合适的 ASCII 字符

转载 作者:行者123 更新时间:2023-12-02 02:31:33 25 4
gpt4 key购买 nike

我想获取看起来几乎相同的所有符号(来自所有字母表)(例如 ð、ô、ö、õ、ø),并将其替换为最接近的 ASCII 字符。所以它看起来像:ð、ô、ö、õ、ø -> o。这不一定是音译,就像在这个库 https://github.com/gcardone/junidecode 中一样。 (我们不应该将符号翻译为 ASCII(含义接近,例如 Ĉ -> s),但我们应该找到与 Unicode 组非常相似的 ASCII 符号(例如 Ĉ - C))。

最佳答案

我没有任何简单的解决方案来解决这个问题,因为您想要分组的符号实际上并不是一个组。符号 Ò、Ó、Õ、Ö、Ø 和 Ô 的形状都类似于“O”,并且具有相似的代码点 (0xD2-0xD8)。在某些语言中,它们甚至可能具有有些相似的发音,尽管不能保证这一点。一个典型的例子是字母“eth”,ð,它看起来有点像“o”,但在使用它的任何语言(据我所知)中,发音方式都不相同。您已经认识到,法语中的“ç”在发音上更可能与“s”相关,而不是其形状相似的“c”。

我认为如果你想承担这个任务,你将不得不通过具体情况的代码点转换来完成(呃!)但是,我认为更困难的问题根本不是在编程中——而是在编程中。鉴于符号形状和语言角色之间几乎没有联系,找到对读者真正有意义的映射。这种典型错误是将西类牙语“año”(年份)翻译为“ano”(意思是“anus”)。您真的不想犯这种错误。

关于java - 是否可以将所有相似的 Unicode 字符分组为合适的 ASCII 字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47014698/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com