gpt4 book ai didi

python - 如何在Python中使用nltk tokenize将某些实体保留为一个单词?

转载 作者:行者123 更新时间:2023-12-01 05:31:02 24 4
gpt4 key购买 nike

如何将下面的某些字符串保持在一起?例如,

sentence = "?!a# .see"
tokens = nltk.word_tokenize(sentence)
tokens

给出

['!', '?', 'a', '#', '.see'] 而不是将 '?!a#' 保留为一个实体。

最佳答案

看起来你想要做的就是用空格分割字符串。所以只需调用 split 就足够了:

>>> sentence.split()
['?!a#', '.see']

但是,如果您确实想使用标记生成器,则可以使用正则表达式标记生成器:

>>> word_tokenizer = RegexpTokenizer('[\S]+') 
>>> word_tokenizer.tokenize(sentence)
['?!a#', '.see']

'\S' 匹配任何非空白字符。

关于python - 如何在Python中使用nltk tokenize将某些实体保留为一个单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20307208/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com