gpt4 book ai didi

python - 使用 "nltk.word_tokenize()"函数时出错

转载 作者:太空宇宙 更新时间:2023-11-04 03:30:14 26 4
gpt4 key购买 nike

我正在尝试对 Twitter 文本进行标记化。当我将函数 nltk.word_tokenize() 应用于每个单独的 twitter 文本时,即使对于一些非常丑陋的文本,它也能完美运行,例如

'\xd8\xb3\xd8\xa3\xd9\x87\xd9\x8e\xd9\x85\xd9\x90\xd8\xb3\xd9\x8f',
'\xd9\x82\xd9\x90\xd8\xb5\xd9\x8e\xd9\x91\xd8\xa9\xd9\x8b', '\xd8\xad\xd8\xaa\xd9\x89'

但是当我遍历一个文件中的所有推特时

tokens = []
for i in range(0,5047591):
s = ','.join(l_of_l[i])
tokens += nltk.word_tokenize(s)

它返回如下错误:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 2: ordinal not in range(128)File "/Library/Python/2.7/site-packages/nltk/tokenize/punkt.py", line 1304, in _realign_boundaries for sl1, sl2 in _pair_iter(slices):

还有更多

关于如何修复它有什么建议吗?

最佳答案

您遇到的问题不是来自您包含的代码,而是来自包含 open() 命令的代码。该脚本可以很好地打开文件,但是当您访问数据时,它会为您提供 TraceBack

import codecs
...
with codecs.open('file.csv','r',encoding='utf8') as f:
text = f.read()

关于python - 使用 "nltk.word_tokenize()"函数时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31345593/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com