gpt4 book ai didi

python - 加载 word2vec 模块时出现“utf-8”解码错误

转载 作者:太空狗 更新时间:2023-10-30 00:54:47 24 4
gpt4 key购买 nike

我必须使用包含大量汉字的 word2vec 模块。该模块由我的同事使用 Java 进行训练,并保存为 bin 文件。

我安装了 gensim并尝试加载模块,但发生以下错误:

In [1]: import gensim  

In [2]: model = gensim.models.Word2Vec.load_word2vec_format('/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin', binary=True)

UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: unexpected end of data

我尝试在 python 2.7 和 3.5 中加载模块,但都以同样的方式失败了。那么如何在gensim中加载模块呢?谢谢。

最佳答案

该模块是由 Java 训练的大量汉字。我无法弄清楚原始语料库的编码格式。错误可以按照gensim中的描述解决 FAQ ,

使用带有标志的 load_word2vec_format 来忽略字符解码错误:

In [1]: import gensim

In [2]: model = gensim.models.Word2Vec.load_word2vec_format('/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin', binary=True, unicode_errors='ignore')

但我不知道忽略编码错误是否重要。

关于python - 加载 word2vec 模块时出现“utf-8”解码错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34427678/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com