c++ - 在 icu::BreakIterator 中查找中断类型-6ren

c++ - 在 icu::BreakIterator 中查找中断类型

转载作者：行者123 更新时间：2023-11-30 03:12:09

24

4

我想了解如何使用 icu::BreakIterator 来查找特定的单词。

例如我有以下句子:

To be or not to be? That is the question...

break 迭代器的 Word 实例会在那里放置 breaks:

|To| |be| |or| |not| |to| |be|?| |That| |is| |the| |question|.|.|.|

现在，并不是每一对断点都是实际的单词。

在派生类 icu::RuleBasedBreakIterator 中有一个“getRuleStatus()”返回关于中断的某种信息，它给出“以下点的单词状态(标记为“/”)”

|To/ |be/ |or/ |not/ |to/ |be/?| |That/ |is/ |the/ |question/.|.|.|

但是...这完全取决于特定规则，并且绝对没有文档可以理解它(除非我只是尝试)，但是使用字典的不同语言环境和语言会发生什么情况？后台软件迭代会发生什么？

有没有办法像 Qt QTextBoundaryFinder 中那样获取“单词开头”或“单词结尾”信息:http://qt.nokia.com/doc/4.5/qtextboundaryfinder.html#BoundaryReason-enum ？

在ICU我该如何正确解决这样的问题？

最佳答案

您尝试过 ICU documentation 吗？？它似乎解释了您所询问的一切，包括处理国际化、反向迭代和规则，包括默认设置和如何创建您自己的自定义集。他们还有代码片段可以提供帮助。

关于c++ - 在 icu::BreakIterator 中查找中断类型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1471816/

24

4

0

文章推荐： c++ - 格式化到控制台，C++

文章推荐： java - Android YouTube API 演示使用 AsyncTask 加载视频

文章推荐： Android 按钮从布局返回 Activity

文章推荐： c++ - 调试 MMC(非托管 C++)？

java - BreakIterator 无法正确处理中文文本
我使用 BreakIterator.getWordInstance 将中文文本拆分为单词。这是我的例子 import java.text.BreakIterator; import java.util
java - 使用 BreakIterator 跳过非字母字符
我的目标是使用 BreakIterator 将“”转换为“”(“ getWords(String text) { List words = new ArrayList(); Break
java - 如何获得一个实际的单词 Iterator 包装 breakIterator？
我正在使用 java.text.breakIterator用于迭代单词(这不是迭代器，是的，我已经注意到，无需告诉我)。为什么我不能把它作为一个实际的迭代器？即为什么我不能这样做: Iterator
java - Android 中的 BreakIterator 错误地计算字符
我正在使用 BreakIterator 来计算字符串中可见字符的数量。这非常适合英语。但对于印地语，它无法按预期工作。下面的字符串长度为3，但视觉上被视为单个字符。 ज्य 当我使用 BreakIt
java - 使用 BreakIterator Java 将带引号的文本拆分为句子
我尝试使用 BreakIterator Java 将包含引用的段落拆分为句子。这是我的段落，其中包含我想要拆分的引文: "People are now getting smarter and mor
c++ - 在 icu::BreakIterator 中查找中断类型
我想了解如何使用 icu::BreakIterator 来查找特定的单词。例如我有以下句子: To be or not to be? That is the question... break 迭代
java - Android 的 BreakIterator 将换行符视为句子分隔符
我有一个 unix 文本文件，我想在我的 Android 应用程序中阅读并将其拆分成句子。但是我注意到 BreakIterator 将一些换行符视为句子分隔符。我使用以下代码读取文件并将其拆分为句子(
c++ - BreakIterators 的 ICU 实现代码
我想修改 ICU 源代码，但它对我来说非常难以理解，我无法找到我正在寻找的部分。我希望找到有关 BreakIterators 实现的代码(并希望找到一些解释注释/文档)。有谁知道这是 ICU C++
c++ - ICU 的 BreakIterator 文档不正确？
我使用 ICU 中断迭代器进行了裁剪。在 the example ，他们建议使用以下代码遍历所有边界: void listWordBoundaries(const UnicodeString& s)
java - BreakIterator 在 Android 中如何工作？
我正在 Android 中制作自己的文本处理器(蒙古语的自定义垂直脚本 TextView)。我以为我必须自己找到所有换行位置才能实现换行，但后来我发现了 BreakIterator .这似乎找到了各种
java - C# 等效于 Java 的 BreakIterator
我正在做一个从 java 到 c# 的转换项目，是否有任何与 BreakIterator 等效的 c# ?我在尝试 IEnumerator ，但找不到 iterator.SetText()下面的用法，
java - 将文本拆分为句子并将句子拆分为单词 : BreakIterator vs regular expressions
我不小心回答了一个question原始问题涉及将句子拆分为单独的单词。和作者suggested to use BreakIterator标记化输入字符串，有些人喜欢这个想法。我只是不明白这种疯狂:
android - BreakIterator.preceding 在 Android V2 中失败？
以下代码适用于 Android 4，但在 Android 2 中会导致 IllegalArgumentException。有什么线索吗？ Locale currentLocale = new Loc

首页

博学

6Ren·AI

商城

c++ - 在 icu::BreakIterator 中查找中断类型