gpt4 book ai didi

python nltk.sent_tokenize 错误ascii编解码器无法解码

转载 作者:太空宇宙 更新时间:2023-11-03 12:07:06 25 4
gpt4 key购买 nike

我可以成功地将文本读入变量,但是在尝试标记文本时我遇到了这个奇怪的错误:

sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)

我知道错误的原因是分词器无法读取/解码的一些特殊字符串/字符,但是如何绕过它呢?谢谢

最佳答案

简而言之,NLTK3 的 pos_tag 函数不起作用。

但是,NLTK2 函数工作正常。

pip uninstall nltk

pip install http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz

另一方面,标注器非常糟糕(显然“音乐学院”是一个动词)。我希望 SpaCy 在 Windows 上工作。

关于python nltk.sent_tokenize 错误ascii编解码器无法解码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27212912/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com