python - 如何在Python中使用nltk tokenize将某些实体保留为一个单词？-6ren

python - 如何在Python中使用nltk tokenize将某些实体保留为一个单词？

转载作者：行者123 更新时间：2023-12-01 05:31:02

如何将下面的某些字符串保持在一起？例如，

sentence = "?!a# .see"
tokens = nltk.word_tokenize(sentence)  
tokens

给出

['!', '?', 'a', '#', '.see'] 而不是将 '?!a#' 保留为一个实体。

最佳答案

看起来你想要做的就是用空格分割字符串。所以只需调用 split 就足够了:

>>> sentence.split()
['?!a#', '.see']

但是，如果您确实想使用标记生成器，则可以使用正则表达式标记生成器:

>>> word_tokenizer = RegexpTokenizer('[\S]+') 
>>> word_tokenizer.tokenize(sentence)
['?!a#', '.see']

'\S' 匹配任何非空白字符。

关于python - 如何在Python中使用nltk tokenize将某些实体保留为一个单词？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20307208/

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章