gpt4 book ai didi

machine-learning - 使用预制字典表示 SVM 特征向量进行文本分类

转载 作者:行者123 更新时间:2023-11-30 09:11:17 25 4
gpt4 key购买 nike

我想将文本集合分为两类,假设我想进行情感分类。我有两本预制的情感词典,一本只包含积极的单词,另一本只包含消极的单词。我想将这些字典合并到 SVM 分类器的特征向量中。我的问题是,是否可以区分正负词字典并表示为 SVM 特征向量,特别是当我为测试集生成特征向量时?

如果我的解释不够清楚,让我举个例子。假设我有这两句话作为训练数据:

Pos: The book is good
Neg: The book is bad

“好”这个词存在于正向词典中,“坏”存在于负向词典中,而其他词则在两个词典中都不存在。我希望匹配字典中存在的单词与句子的类别具有较大的权重值,而其他单词具有较小的值。因此,特征向量将如下所示:

+1 1:0.1 2:0.1 3:0.1 4:0.9
-1 1:0.1 2:0.1 3:0.1 5:0.9

如果我想对测试句子“The food is bad”进行分类,当我无法匹配测试句子的类别时,我应该如何为测试集生成一个特征向量,其权重取决于现有字典与每个字典?我能想到的是,对于测试集,只要这个词在两​​个词典中都存在,我就会给这个词一个很高的权重值。

0 1:0.1 3:0.1 5:0.9

我想知道这是否是为训练集和测试集创建向量表示的正确方法。

--编辑--我忘了提及这些预制词典是使用某种主题模型提取的。例如,主题 1 中的前 100 个单词有点代表正类,主题 2 中的单词代表负类。我想使用此类信息来改进分类器,而不是仅使用词袋功能。

最佳答案

简而言之 - 这不是它的工作方式

学习的重点是让分类器能够自行分配这些权重。你不能“强制它”为特定功能的每个类提供高值(我的意思是,你可以在优化级别上,但这需要更改整个 svm 结构)。

所以正确的方法是简单地创建一个“正常”表示。没有任何额外的规范。让模型来决定,他们确实比人类直觉更擅长统计分析。

关于machine-learning - 使用预制字典表示 SVM 特征向量进行文本分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36821818/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com