gpt4 book ai didi

unicode - ICU 中的拉丁语<->汉语转换?

转载 作者:行者123 更新时间:2023-12-02 00:33:10 24 4
gpt4 key购买 nike


我刚刚开始在 C++ 程序中使用 ICU4C 实现 ICU 转换。我特别关注中文的音译。

根据 this document , 包支持“汉-拉丁”和“拉丁-汉”转换。作为一名学习中文的学生,这让我感到惊讶,因为如果没有非常先进的统计技术,拉丁汉转换特别困难(我见过的最接近的是谷歌音译,即使没有用户输入,它实际上也做得很好,但这对于目前的项目来说是不可行的),更不用说没有音标的转换了。如果不求助于比尔·莫瑞等事实上的外国名字借用字符,我什至怀疑这是否可能。正如我们在本文中所见(PDF),这是谷歌地图在其国际领域中采用的方法。

无论如何,我愿意暂停怀疑,在查阅文档和教程后,我能够构造两个音译器对象(to 和 from)并使用它们执行简单的音译。

虽然 Han-Latin 的工作还算过得去(简单数据的准确率约为 80%),但 Latin-Han 似乎根本不起作用,返回与输入相同的“latin”字符串,这与我使用的结果一致online transform sample ,和我对中文的了解一致。我设法找到了 this表,我认为这是用于两个来源的,正如我们所见here :

{ "Latin-Han", "file", "t_Hani_Latn", "REVERSE" },
{ "Han-Latin", "file", "t_Hani_Latn", "FORWARD" },

我认为这意味着给定一个拼音字符串,它可能会重现原始字符串,但事实似乎并非如此。

我想我的一般问题是:这种转换甚至可以通过 ICU 或 Google Transliterate 以外的任何方式实现吗?什么是预期的输出?相关地,是否有 ICU 实际上 支持的脚本对的列表,如果这真的不可能的话?

谢谢你的时间

最佳答案

请注意,数据来自 CLDR 项目,http://cldr.unicode.org . ICU 支持的脚本对很多,ICU 将尝试使用枢轴脚本(例如汉字到拉丁文到俄文),这就是为什么您可以创建音译器,例如“Any-Latin”。您可以尝试浏览 ICU 和 CLDR 数据集。 Han-Latin 文件顶部的注释说它不往返。

关于unicode - ICU 中的拉丁语<->汉语转换?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5838267/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com