gpt4 book ai didi

python - 在带注释的文本上使用 NLTK 方法,例如 tokenize

转载 作者:行者123 更新时间:2023-12-01 00:24:46 27 4
gpt4 key购买 nike

假设我有一个带注释的文本语料库,其中的句子类似于:

txt = 'red foxes <emotion>scare</emption> me.'

是否可以使用 word_tokenize 以我们得到的方式对其进行标记:

['red', 'foxes', '<emotion>scare<emotion>', 'me', '.']

我们可以使用另一种注释方案:

txt = 'red foxes scare\_EMOTION me'

是否可以使用 NLTK 来做到这一点——目前我正在解析注释,然后在带外跟踪它们,这非常麻烦。

最佳答案

要获得所需的结果,您不需要 nltk

只需运行txt.split()

如果您坚持使用nltk,请查看不同的tokenizers .

PunktWordTokenizerWhitespaceTokenizer 适合。

关于python - 在带注释的文本上使用 NLTK 方法,例如 tokenize,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58676441/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com