gpt4 book ai didi

java - 是否有检测方向特征的标准方法?

转载 作者:太空宇宙 更新时间:2023-11-04 08:13:50 25 4
gpt4 key购买 nike

我正在解析由此 Wikipedia article 制成的文本文件,基本上我做了一个 Ctrl+A 并将所有内容复制/粘贴到文本文件中。 (我用它作为例子)。我正在尝试制作一个单词列表及其计数,为此我使用带有此分隔符的扫描仪:

    sc.useDelimiter("[\\p{javaWhitespace}\\p{Punct}]+");

它非常适合我的需要,但分析结果时,我看到一些看起来像空白 token 的东西( again... )。该字符位于文章中的 (nynorsk) 之后(有趣的是,当我在此处复制/粘贴时,该字符消失了,在 gedit 中我可以使用 并且光标不会移动)。

经过进一步研究,我发现这个 token 实际上是 POP DIRECTIONAL FORMATTING (U+202C) .

这不是唯一的方向字符,看看 Character documentation Java 似乎定义了它们。

所以我想知道是否有一种标准方法来检测这些字符,如果可能的话,有一种可以轻松集成到分隔符模式中的方法

我想避免自己列出 list ,因为我担心我会忘记其中的一些。

最佳答案

您始终可以反过来使用白名单而不是黑名单:

sc.useDelimiter("[^\\p{L}]+");

关于java - 是否有检测方向特征的标准方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10766708/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com