gpt4 book ai didi

machine-learning - 在机器学习中总结词嵌入向量是否会破坏它们的意义?

转载 作者:行者123 更新时间:2023-11-30 08:47:52 25 4
gpt4 key购买 nike

例如,我有一个段落,我想以二进制方式分类。但由于输入必须具有固定长度,因此我需要确保每个段落都由统一的数量表示。

我所做的一件事是获取段落中的每个单词,使用 GloVe word2vec 将其向量化,然后对所有向量求和以创建一个“段落”向量,然后将其作为我的输入模型。我这样做是否破坏了这些词可能具有的意义?考虑到这两个句子将具有相同的向量:“我的狗咬了戴夫”和“戴夫咬了我的狗”,我该如何解决这个问题?我这样做是错误的吗?

还有什么其他方法可以训练我的模型?如果我获取每个单词并将其输入到我的模型中,我如何知道应该获取多少个单词?我该如何输入这些词呢?二维数组的形式,其中每个词向量是一列?

我希望能够训练一个可以准确分类文本的模型。令人惊讶的是,对于像 RandomForestClassifier 这样相对简单的模型,仅通过使用这种求和方法,我就获得了很高的结果 (>90%)。有什么见解吗?

编辑:我收到的一个建议是将我的数据特征化为二维数组,其中每个单词都是一列,CNN 可以在其中工作。我收到的另一个建议是通过 Huggingface 转换器使用迁移学习来获取整个段落的向量。哪一种更可行?

最佳答案

I want to be able to train a model that can classify text accurately. Surprisingly, I'm getting a high (>90%) for a relatively simple model like RandomForestClassifier just by using this summing up method. Any insights?

如果您查找有关聚合词嵌入的论文,您会发现这种情况实际上有时会发生,尤其是在文本较短的情况下。

What other way can I train my model? If I take every word and feed that into my model, how do I know how many words I should take? How do I input these words? In the form of a 2D array, where each word vector is a column?

您尝试过关键字提取吗?它可以缓解一些平均问题

In doing so, have I destroyed any meaning the words might have possessed?

正如您所说,您丢弃了有关词序的信息。但这还不是最糟糕的部分:大多数情况下,对于较长的文档,如果您嵌入所有内容,其含义将由常用词(“how”、“like”、“do”等)主导。顺便说一句,请参阅我对 this question 的回答

除此之外,我见过的一个技巧是对词向量进行平均,但在词嵌入矩阵上减去 PCA 的第一个主成分。详细信息您可以参见例如 this repo这也链接到该论文(顺便说一句 this paper 建议您可以忽略“平滑逆频率”内容,因为主成分减少起到了有用的作用)。

关于machine-learning - 在机器学习中总结词嵌入向量是否会破坏它们的意义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59643661/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com