gpt4 book ai didi

python - 将 word_tokenize 转换为句子

转载 作者:太空宇宙 更新时间:2023-11-03 20:14:40 31 4
gpt4 key购买 nike

我是 Python nltk 新手

目前,我有一个程序可以对句子进行 word_tokenize。然后对 word_tokenize 进行处理,纠正某些名词的大小写。这个过程工作正常,现在我想将处理后的 word_tokenize 再次转换为句子。我可以通过循环轻松地完成此操作,并且对于每个显示,我只需要添加空间。但在某些情况下,这对于“it's、I'm、don't 等”这样的词不起作用。因为 word_tokenize 单独保存这些单词。这样做,我处理后的 word_tokenize 将转换为“it's、I'm、don't 等”

nltk有没有一个函数可以将word_tokenize完美地句子化?

最佳答案

nltk 有 TreebankWordDetokenizer,它可以从标记列表中重建句子:

from nltk import word_tokenize
tokens = word_tokenize("I'm happy because it's a good book")
print(tokens)
#['I', "'m", 'happy', 'because', 'it', "'s", 'a', 'good', 'book']

from nltk.tokenize.treebank import TreebankWordDetokenizer
reconstructedSentence = TreebankWordDetokenizer().detokenize(tokens)
print(reconstructedSentence)
#I'm happy because it's a good book

关于python - 将 word_tokenize 转换为句子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58531461/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com