我刚刚使用 iTextSharp 从 pdf 中获取所有文本,现在我需要将该文本拆分为单词。我以前使用 Acrobat 库,它会自动将它分成单词(使用 getPageNthWord()
)。
我不知道使用了哪个标准,但现在我需要知道如何将文本拆分为单词。我将拆分不同语言的文本,因此我需要拆分为每个可能的分隔符。
我看到了 Char.IsSeparator()
方法,但对每个字符使用该方法意味着循环,这将是低效的。
到目前为止,我所得到的是手动指定要在 .Split()
中使用的分隔符:
separators = " .,;:-(){}[]/\'""?¿!¡" & Convert.ToChar(9) & NewLine()
有什么地方可以检索公共(public)分隔符?
您可以使用 string.Split method带空参数:
If the separator parameter is null or contains no characters, white-space characters are assumed to be the delimiters. White-space characters are defined by the Unicode standard and return true if they are passed to the Char.IsWhiteSpace method.
或者关注MSDN sample并获取所有 char.IsSeparator()
个字符。
我是一名优秀的程序员,十分优秀!