gpt4 book ai didi

c++ - 在 icu::BreakIterator 中查找中断类型

转载 作者:行者123 更新时间:2023-11-30 03:12:09 24 4
gpt4 key购买 nike

我想了解如何使用 icu::BreakIterator 来查找特定的单词。

例如我有以下句子:

To be or not to be? That is the question...

break 迭代器的 Word 实例会在那里放置 breaks:

|To| |be| |or| |not| |to| |be|?| |That| |is| |the| |question|.|.|.|

现在,并不是每一对断点都是实际的单词。

在派生类 icu::RuleBasedBreakIterator 中有一个“getRuleStatus()”返回关于中断的某种信息,它给出“以下点的单词状态(标记为“/”)”

|To/ |be/ |or/ |not/ |to/ |be/?| |That/ |is/ |the/ |question/.|.|.|

但是...这完全取决于特定规则,并且绝对没有文档可以理解它(除非我只是尝试),但是使用字典的不同语言环境和语言会发生什么情况?后台软件迭代会发生什么?

有没有办法像 Qt QTextBoundaryFinder 中那样获取“单词开头”或“单词结尾”信息:http://qt.nokia.com/doc/4.5/qtextboundaryfinder.html#BoundaryReason-enum

在ICU我该如何正确解决这样的问题?

最佳答案

您尝试过 ICU documentation 吗? ?它似乎解释了您所询问的一切,包括处理国际化、反向迭代和规则,包括默认设置和如何创建您自己的自定义集。他们还有代码片段可以提供帮助。

关于c++ - 在 icu::BreakIterator 中查找中断类型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1471816/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com