gpt4 book ai didi

Python:gensim:RuntimeError:在训练模型之前必须先建立词汇表

转载 作者:IT老高 更新时间:2023-10-28 21:06:21 26 4
gpt4 key购买 nike

我知道已经有人问过这个问题,但我仍然无法找到解决方案。

我想在自定义数据集上使用 gensim 的 word2vec,但现在我仍在弄清楚数据集必须采用什么格式。我看了this post其中输入基本上是一个列表列表(一个包含其他列表的大列表,这些列表是来自 NLTK Brown 语料库的标记化句子)。所以我认为这是我必须用于命令 word2vec.Word2Vec() 的输入格式。但是,它不适用于我的小测试集,我不明白为什么。

我尝试过的:

成功了:

from gensim.models import word2vec
from nltk.corpus import brown
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

brown_vecs = word2vec.Word2Vec(brown.sents())

这不起作用:

sentences = [ "the quick brown fox jumps over the lazy dogs","yoyoyo you go home now to sleep"]
vocab = [s.encode('utf-8').split() for s in sentences]
voc_vec = word2vec.Word2Vec(vocab)

我不明白为什么它不适用于“模拟”数据,即使它与布朗语料库中的句子具有相同的数据结构:

词汇:

[['the', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dogs'], ['yoyoyo', 'you', 'go', 'home', 'now', 'to', 'sleep']]

brown.sents():(它的开头)

[['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.'], ['The', 'jury', 'further', 'said', 'in', 'term-end', 'presentments', 'that', 'the', 'City', 'Executive', 'Committee', ',', 'which', 'had', 'over-all', 'charge', 'of', 'the', 'election', ',', '``', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'City', 'of', 'Atlanta', "''", 'for', 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted', '.'], ...]

谁能告诉我我做错了什么?

最佳答案

gensim 的 Word2Vec 中的默认 min_count 设置为 5。如果您的 vocab 中没有频率大于 4 的单词,则您的 vocab 将为空,因此出现错误。试试

voc_vec = word2vec.Word2Vec(vocab, min_count=1)

关于Python:gensim:RuntimeError:在训练模型之前必须先建立词汇表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33989826/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com