gpt4 book ai didi

c# - 将文本拆分为单词 : Separators

转载 作者:太空宇宙 更新时间:2023-11-03 10:56:43 29 4
gpt4 key购买 nike

我刚刚使用 iTextSharp 从 pdf 中获取所有文本,现在我需要将该文本拆分为单词。我以前使用 Acrobat 库,它会自动将它分成单词(使用 getPageNthWord())。

我不知道使用了哪个标准,但现在我需要知道如何将文本拆分为单词。我将拆分不同语言的文本,因此我需要拆分为每个可能的分隔符。

我看到了 Char.IsSeparator() 方法,但对每个字符使用该方法意味着循环,这将是低效的。

到目前为止,我所得到的是手动指定要在 .Split() 中使用的分隔符:

separators = " .,;:-(){}[]/\'""?¿!¡" & Convert.ToChar(9) & NewLine()

有什么地方可以检索公共(public)分隔符?

最佳答案

您可以使用 string.Split method带空参数:

If the separator parameter is null or contains no characters, white-space characters are assumed to be the delimiters. White-space characters are defined by the Unicode standard and return true if they are passed to the Char.IsWhiteSpace method.

或者关注MSDN sample并获取所有 char.IsSeparator() 个字符。

关于c# - 将文本拆分为单词 : Separators,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19242046/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com