c++ - 使用 ICU 进行分词-6ren

c++ - 使用 ICU 进行分词

转载作者：行者123 更新时间：2023-11-28 07:52:27

31

4

我正在使用 ICU4C 音译 CJK。我想知道是否有可能在 ICU 中进行分词，将中文文本分成一系列单词，根据某些分词标准定义。

例如，当我尝试音译时:

直接输出html代码而不是作为函数返回值代后处理

使用

Transliterator* myTrans = 
                  Transliterator::createInstance("zh-Latin",UTRANS_FORWARD, err);
UnicodeString str;
str.setTo("直接输出html代码而不是作为函数返回值代后处理");
myTrans->transliterate(str);
str.toUTF8String(st);
std::cout << st << std::endl;

我得到以下输出:

zhí jiē shū chū html dài mǎ ér bù shì zuò wèi hán shù fǎn huí zhí dài hòu chù lǐ

用在线拼音工具检查似乎完全没问题，但我的问题是 ICU 将字符一个一个地音译。不过，我正在寻找的更像是下面的文字(我不懂中文，所以下面的文字可能没有任何意义，但它应该展示我感兴趣的输出类型) :

zhíjiē shūchū html dàimǎér bùshì zuò wèihán shùfǎn huízhídài hòu chùlǐ

I have been told ICU 50 能够进行分词，但我在他们的网页上都找不到任何文档。想知道你们中是否有人在 ICU 中使用过分词或知道如何做，或者您是否有关于如何做的任何好的链接。

最佳答案

“基于字典的迭代器”不是一个不同的 API。只需使用适当的语言环境 ID 创建一个 ICU 分词迭代器。

icu/source/samples/break 中有一个 ICU 自带的 C/C++ 示例

下面的示例代码也显示了分词: http://source.icu-project.org/repos/icu/icuapps/trunk/iucsamples/c/s24_brkw/s24_brkw.cpp http://source.icu-project.org/repos/icu/icuapps/trunk/iucsamples/c/s23_brki/

大概是这样的:

  BreakIterator *wordIterator = BreakIterator::createWordInstance(Locale("zh"), status);
UnicodeString text = "Unicode provides a unique number for every character, no matter what the platform, no matter what the program, no matter what the language.";
  wordIterator->setText(text);
  int32_t breakCount = 0;
    int32_t start = wordIterator->first();
    for(int32_t end = wordIterator->next();
        end != BreakIterator::DONE;
        start = end, end = wordIterator->next())
    {
         breakCount++;
    }
  delete wordIterator;

关于c++ - 使用 ICU 进行分词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13494910/

31

4

0

文章推荐： c++ - 代码中的段错误

文章推荐： javascript - 如何计算欧氏距离？ (华硕)

文章推荐： c++ - 如何在发布中排除测试用例(gTest)

文章推荐： c++ - async_connect() 超时，多个线程执行 io_service.run()

icu - 如何在 ICU 中表达列表
我正在尝试学习 ICU 语法并希望能够表达在 ICU message format 中列出. 例如，给定数据: items: - cool - handy - neat 我希望能够生成如下
string - ICU 中正确的标题大小写 [ICU 有非大写单词列表吗？]
是否可以获得适当的大写，例如使用 ICU4C 的英文文本但没有构建任何自定义的非大写单词集？比如说，鉴于对峡湾的渴望，我希望获得对峡湾的渴望。使用 ucasemap_utf8ToTitle() 和
sqlite - 编译静态链接到 icu 的 icu sqlite 扩展
我想编译 icu sqlite extension静态链接到 icu . 这是我试过的，也许错误对你来说是显而易见的。 > cd icu/source> ./runConfigureIcu Linux
node.js - Node : could not initialize ICU (check NODE_ICU_DATA or --icu-data-dir parameters)
我试图将我们 CI 环境中的 Node 版本从 Node 6 升级到 Node 8。我也更新了完整的 icu 版本。 $NODE_ICU_DATA 设置为 /usr/lib/node_modules/
android - 注意 : android. support.v4.text.ICUCompatIcs : can't find dynamically referenced class libcore. icu.ICU
我今天开始使用最新的 Android Build Tools (ABT) v19.0.3 收到消息。乍一看，我认为这可能是 ABT 的问题。然而，更仔细的调查显示这条消息: android.suppo
icu - unicode 归类排序背后的理论是什么
unicode 排序背后的理论是什么？我明白它是如何工作的，但我不明白为什么 they决定采用此标准进行归类排序。似乎当您有两个字符串要比较时，例如使用 ucol_strcolliter(): uc
internationalization - ICU 是否处理不同语言的字符串列表的整理？
我的应用程序可能在一个列表中包含由不同字母/语言组成的字符串。我似乎无法找到有关对这些进行排序的正确方法应该是什么的任何信息，或者任何表明 ICU 支持此功能的迹象。示例列表: 苹果 яблоко
ios - 使用XCode构建Sqlite ICU
如何在iPhone应用程序的工作区中使用ICU(Unicode国际组件)将sqlite编译为项目？我之前已经编译了sqlite合并，但是我不确定应该下载哪些文件以及需要将哪些脚本添加到xcode中-
java - ICU 音译片假名过滤器不适用于半角片假名浊音标记
我正在尝试使用 ICU 音译器对某些文本进行非常具体的转换，如 here 所述. 我的文本包含半角片假名字符和常规拉丁字符。我想将半角片假名转换为全角片假名，同时保持非片假名字符不变。我想简单地应用
c++ - ICU 探测所有货币符号
有没有办法探测ICU library对于所有 UChar's表示库支持的货币符号？我当前的解决方案是遍历所有语言环境并针对每个语言环境，执行如下操作: const DecimalFormatSymb
c++ - ICU 和字符串比较
谁能解释为什么下面的比较不相等？ void CompareTest() { UErrorCode status = U_ZERO_ERROR; UChar ruleset[500]; *rul
c++ - ICU 货币区域获取面额
有没有办法探测 ICU最小面额的货币区域设置？例如，美国为 0.01 美元，韩国 (ko_KR) 为 ₩1。我想在 DecimalFormat object 上调用 getRoundingIncrem
c++ - ICU:创建不区分大小写的排序规则
我正在创建 SQLite3 的自定义构建，我想实现不区分大小写的文本列。是否可以创建不区分大小写的排序规则？最佳答案你可能想调用 ucol_setStrength具有 UCOL_PRIMARY
c++ - ICU 无法解析的外部符号
我们有使用 ICU 库处理 Unicode 字符串的代码。当我们尝试构建它时，没有出现编译错误，但链接失败了。我用以下代码创建了一个小测试程序: #define U_STATIC_IMPLEMENTA
c++ - ICU 添加自定义字符集检测
有人知道 ICU 字符集检测器的数据是如何构建的吗？添加其他语言是否困难？例如，我在错误跟踪器中看到，自 2007 年以来就打开了检测泰语的票证，但直到今天都没有新内容。谢谢最佳答案我会在 I
c++ - 如何在like查询中使用sqlite icu
您好，我将我的sql语句修改为 CREATE VIRTUAL TABLE [v_fts] USING fts4 ( [title], tokenize=icu )" 但是当我尝试插入数据时出现错误
c++ - ICU 迭代代码点
我的目标是逐个字符地迭代 Unicode 文本字符串，但下面的代码迭代的是代码单元而不是代码点，即使我使用的是 next32PostInc () 应该迭代代码点: void iterate_codep
php - ICU:音译然后删除所有非字母数字字符
是否可以在不退回到正则表达式的情况下使用 ICU 完成？目前我规范化文件名是这样的: protected function normalizeFilename($filename) { $t
php - ICU 资源包是否用于消息翻译资源
我了解 ICU 的本地化部分 - 日期、时间和货币格式、整理等。在消息翻译方面，我看到有人说 ICU 不提供消息翻译功能 - 例如查看 this SOF question . 但是，在查看 ICU 文
c++ - ICU 正则表达式引用
我想知道是否有一种方法可以在 ICU (c++) 库中引用字符串。存在 "\Q"+ string + "\E"但我生成的输入作为提供的字符串输入。似乎没有任何 ICU 引用正则表达式方法。只需将字符串

首页

博学

6Ren·AI

商城

c++ - 使用 ICU 进行分词