gpt4 book ai didi

machine-learning - 从公开可用的词嵌入中提取更有意义的词

转载 作者:行者123 更新时间:2023-11-30 08:34:48 25 4
gpt4 key购买 nike

我有两个公开可用的词嵌入,例如 Glove 和 Google Word2vec。然而,在他们的词汇中,有太多拼写错误的单词或垃圾词(例如,##AA##、adirty 等)。为了避免这些单词,我想提取频繁的单词(例如,前 50000 个单词),因为我认为相对高频的单词具有正常形式。

所以,我想知道是否有一种方法可以找到上述两个预训练词嵌入中的词频。如果没有的话,我想知道是否有一些技巧可以排除这个词。

最佳答案

GoogleNews 向量集不包含频率信息,但似乎是按照从最频繁到最不频繁的顺序排序的。因此,如果您将加载它的代码更改为仅加载前 N 个单词,您应该获得 N 个最常见的单词。

(用于训练或使用词向量的 Python gensim 库将其作为 load_word2vec_format() 函数的 limit 选项包含在内。)

GLoVe 可能遵循相同的约定 - 查看文件中的单词顺序应该会给出一个好主意。

关于machine-learning - 从公开可用的词嵌入中提取更有意义的词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45631962/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com