gpt4 book ai didi

c++ - 将 CJK 音译为拉丁语——最好使用 C++

转载 作者:行者123 更新时间:2023-11-28 07:52:34 24 4
gpt4 key购买 nike

<分区>

我正在尝试编写一个可以将 CJK 音译为拉丁语(即拼音、罗马字等)的程序。例如,您将中文、日文或韩文文档作为输入,然后将音译为拉丁文的版本作为输出。

我是这个领域的新手,所以请多多包涵。

显然,首先我需要检测语言的类型(中文、日文或韩文),然后再进行下一步。然后,据我目前的理解,为了进行音译,我需要将文本分成单词,因为在这些语言中,单词之间没有空格。这叫做 word segmentation .最后,在找出单词后,我需要将它们音译成拉丁语。

所以这是我的问题:

  1. 有很多(嗯,不是真的!最好说一些)做音译工作的库,因为我正在寻找 C/C++ 的开源库,所以我找到了 Adson(仅适用于中文)和 ICU4C。从 Adson 克隆的 Git 存储库 didn't compile .而且我找不到简单直接的 ICU4C 教程。我怎样才能找到一些关于 ICU4C 使用的教程?你知道还有其他图书馆可以将 CJK 音译成拉丁语吗?如果准确率更高(~90%),我可以忘记它是用 C++ 编写的。

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com