c# - 将文本拆分为单词 : Separators-6ren

c# - 将文本拆分为单词 : Separators

转载作者：太空宇宙更新时间：2023-11-03 10:56:43

我刚刚使用 iTextSharp 从 pdf 中获取所有文本，现在我需要将该文本拆分为单词。我以前使用 Acrobat 库，它会自动将它分成单词(使用 getPageNthWord())。

我不知道使用了哪个标准，但现在我需要知道如何将文本拆分为单词。我将拆分不同语言的文本，因此我需要拆分为每个可能的分隔符。

我看到了 Char.IsSeparator() 方法，但对每个字符使用该方法意味着循环，这将是低效的。

到目前为止，我所得到的是手动指定要在 .Split() 中使用的分隔符:

separators = " .,;:-(){}[]/\'""?¿!¡" & Convert.ToChar(9) & NewLine()

有什么地方可以检索公共(public)分隔符？

最佳答案

您可以使用 string.Split method带空参数:

If the separator parameter is null or contains no characters, white-space characters are assumed to be the delimiters. White-space characters are defined by the Unicode standard and return true if they are passed to the Char.IsWhiteSpace method.

或者关注MSDN sample并获取所有 char.IsSeparator() 个字符。

关于c# - 将文本拆分为单词 : Separators，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19242046/

文章推荐： c# - 如何在运行时移动 UI 元素？

文章推荐： python - 使用单元测试在 Jupyter 中测试学生的代码

文章推荐： c# - 单击一次更新到特定版本

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c# - 将文本拆分为单词 : Separators