gpt4 book ai didi

Python Gensim word2vec 词汇键

转载 作者:行者123 更新时间:2023-11-30 22:39:43 24 4
gpt4 key购买 nike

我想用 gensim 制作 word2vec。听说词汇语料库应该是unicode所以我把它转换成unicode。

# -*- encoding:utf-8 -*-
# !/usr/bin/env python
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
from gensim.models import Word2Vec
import pprint

with open('parsed_data.txt', 'r') as f:
corpus = map(unicode, f.read().split('\n'))

model = Word2Vec(size=128, window=5, min_count=5, workers=4)
model.build_vocab(corpus,keep_raw_vocab=False)
model.train(corpus)
model.save('w2v')

pprint.pprint(model.most_similar(u'너'))

以上是我的源代码。看起来工作得很好。然而,词汇键存在问题。我想制作使用 unicode 的韩语 word2vec。例如单词사과,在英语中表示道歉,它的unicode是\xC0AC\xACFC如果我尝试在word2vec中查找사과,则会发生关键错误...
而不是 \xc0ac\xacfc \xc0ac\xacfc 分开存储。请问是什么原因以及如何解决?

最佳答案

Word2Vec 需要分解为单词标记的文本示例。看来您只是向 Word2Vec 提供字符串,因此当它迭代它们时,它只会将单个字符视为单词。

韩语使用空格来分隔单词吗?如果是这样,请先用空格分隔文本,然后再将单词列表作为文本示例传递给 Word2Vec。

如果没有,在将句子传递给 Word2Vec 之前,您需要使用一些外部单词标记器(不是 gensim 的一部分)。

关于Python Gensim word2vec 词汇键,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43065843/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com