c++ - 将 CJK 音译为拉丁语——最好使用 C++-6ren

c++ - 将 CJK 音译为拉丁语——最好使用 C++

转载作者：行者123 更新时间：2023-11-28 07:52:34

24

4

<分区>

我正在尝试编写一个可以将 CJK 音译为拉丁语(即拼音、罗马字等)的程序。例如，您将中文、日文或韩文文档作为输入，然后将音译为拉丁文的版本作为输出。

我是这个领域的新手，所以请多多包涵。

显然，首先我需要检测语言的类型(中文、日文或韩文)，然后再进行下一步。然后，据我目前的理解，为了进行音译，我需要将文本分成单词，因为在这些语言中，单词之间没有空格。这叫做 word segmentation .最后，在找出单词后，我需要将它们音译成拉丁语。

所以这是我的问题:

有很多(嗯，不是真的!最好说一些)做音译工作的库，因为我正在寻找 C/C++ 的开源库，所以我找到了 Adson(仅适用于中文)和 ICU4C。从 Adson 克隆的 Git 存储库 didn't compile .而且我找不到简单直接的 ICU4C 教程。我怎样才能找到一些关于 ICU4C 使用的教程？你知道还有其他图书馆可以将 CJK 音译成拉丁语吗？如果准确率更高(~90%)，我可以忘记它是用 C++ 编写的。

24

4

0

文章推荐： c++ - 如何在类层次结构中处理 CRTP？

文章推荐： html - 如何改变jqxtree的字体大小

Python - Pyg 拉丁语？
我正在尝试扩展 Codecademy pig 拉丁语转换器，以便它接受句子而不仅仅是单个单词，并转换句子中的每个单词。这是我的代码: pyg = 'ay' pyg_input = raw_input(
python - 文本中的日期识别 - 拉丁语
我正在处理一些包含日期的拉丁文本，并使用各种正则表达式模式和基于规则的语句来提取日期。我想知道我是否可以使用一种算法来训练来提取这些日期，而不是我目前使用的方法。谢谢这是我的算法的摘录: def c
hadoop - pig 拉丁语-从单行输入创建多行输出
我有如下输入数据: Row1|2014-04-04 18:46:18|37.52|-84.34|30870|580.372 ms, 759.065 ms, 695.879 ms Row2|2014-0
java - 将单词或句子翻译成 pig 拉丁语
所以基本上我对这个问题的问题是我不允许使用 Stringbuilder、数组或 String.split() 来创建这个程序。我完全难以做到这一点，因为如果我能用这些方法来解决这个程序，我就不会在这里
c - 在c中将句子翻译成 pig 拉丁语
我已将问题分解为几个步骤来翻译成 pig 拉丁语 1.循环定位数组中的空间 - if now(arr) is not space and not null then keep searching(+1
java - 如何将用户输入的字符串转换为 pig 拉丁语？
我正在尝试将以辅音开头的用户输入的字符串转换为“ pig 拉丁语”，将所有辅音移动到单词的末尾，直到单词以元音开头，然后在单词的末尾添加“ay” 。我有一个 for 循环应该执行此操作，但由于某种原因
python - 将句子转换为 pig 拉丁语？
我正在尝试将句子转换为 pig latin，但无法正常工作。条件:1. 如果它以元音开头，在单词后面加上 way(例如 eagle become eagleway)2.如果是辅音开头的，就查第二个字
android - 塞尔维亚语(拉丁语，塞尔维亚语)(sr-rs-latn)语言的值文件夹名称应该是什么？
我想将塞尔维亚拉丁语、塞尔维亚语添加到我的 Android 应用程序中。但是我无法弄清楚值文件夹的名称应该是什么。我尝试了 values-sr-rRS-Latn 但 Android studio 给出
hadoop - PIG 拉丁语 : Output Path based on Field Value
我有一个日志文件，其中包含来自多个域的日志。现在我想对它们进行一些分析并将输出存储在一个名为域的目录中。我在日志中将域作为字段值: STORE outputlogs INTO 'testpath/DO
hadoop - PIG 拉丁语 : While loading how to discard the first line in any file?
我从一段时间以来一直在使用 PIG，想知道如何在加载文件时不考虑第一行。我有一个包含标题的文件。所以我应该忽略第一行并转到下一行对日期列和所有列进行处理。如何解决这个问题？谢谢最佳答案如果你有
hadoop - 相当于$ cut -c16-19 的 pig 拉丁语
我有以下输入记录: 0029029070999991901010106004 + 64333 + 023450FM-12 + 000599999V0202701N015919999999N000000
javascript - 使用 Ñ 字符(拉丁语)在 PhoneGap 上的 SQLite 中查询不给出结果
我使用 PhoneGap 开发应用程序。我使用 Ripple 在浏览器中测试我开发的应用程序，然后在真实设备中测试我的应用程序。我有很多包含拉丁字符的行，例如 Ñ、Ü 等，当我进行不包含这些字符的查
hadoop - pig 拉丁语 : Load multiple files from a date range (part of the directory structure)
我有以下场景- pig 版使用0.70 示例 HDFS 目录结构: /user/training/test/20100810/ /user/training/test/20100811/ /user/

首页

博学

6Ren·AI

商城

c++ - 将 CJK 音译为拉丁语——最好使用 C++