gpt4 book ai didi

python - 错误 : 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte

转载 作者:太空狗 更新时间:2023-10-29 19:32:56 31 4
gpt4 key购买 nike

我正在尝试执行以下操作 kaggle assignmnet .我正在使用 gensim 包来使用 word2vec。我能够创建模型并将其存储到磁盘。但是,当我尝试重新加载文件时,出现以下错误。

    -HP-dx2280-MT-GR541AV:~$ python prog_w2v.py 
Traceback (most recent call last):
File "prog_w2v.py", line 7, in <module>
models = gensim.models.Word2Vec.load_word2vec_format('300features_40minwords_10context.txt', binary=True)
File "/usr/local/lib/python2.7/dist-packages/gensim/models/word2vec.py", line 579, in load_word2vec_format
header = utils.to_unicode(fin.readline())
File "/usr/local/lib/python2.7/dist-packages/gensim/utils.py", line 190, in any2unicode
return unicode(text, encoding, errors=errors)
File "/usr/lib/python2.7/encodings/utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte

我发现了类似的问题。但是我无法解决问题。我的 prog_w2v.py 如下所示。

import gensim
import time
start = time.time()
models = gensim.models.Word2Vec.load_word2vec_format('300features_40minwords_10context.txt', binary=True)
end = time.time()
print end-start," seconds"

我正在尝试使用 code here 生成模型.该程序大约需要半个小时来生成模型。因此我无法多次运行它来调试它。

最佳答案

您没有正确加载文件。您应该使用 load() 而不是 load_word2vec_format()。后者在您使用 C 代码训练模型并以二进制格式保存模型时使用。但是,您没有以二进制格式保存模型,而是使用 python 对其进行训练。所以你可以简单地使用下面的代码,它应该可以工作:

models = gensim.models.Word2Vec.load('300features_40minwords_10context.txt')

关于python - 错误 : 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27659985/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com