gpt4 book ai didi

machine-learning - 文本分类 - 如何找到对决策影响最大的特征

转载 作者:行者123 更新时间:2023-11-30 08:38:38 25 4
gpt4 key购买 nike

当使用 SVMlightLIBSVM 将短语分类为积极或消极(情感分析)时,是否有办法确定哪些是受影响最有影响力的单词算法决定?例如,发现单词“good”有助于确定短语是积极的,等等。

最佳答案

如果您使用线性内核,那么可以 - 只需计算权重向量:

w = SUM_i y_i alpha_i sv_i

地点:

  • sv - 支持向量
  • alpha - 使用 SVMlight 找到的系数
  • y - 对应的类(+1 或 -1)

(在某些实现中,alpha 已经乘以 y_i,因此它们是正数/负数)

一旦你有了w,其维度为1 x d,其中d是你的数据维度(词袋中的单词数)/tfidf表示)只需选择绝对值较高的维度(无论正数或负数)即可找到最重要的特征(单词)。

如果您使用某些内核(例如 RBF),那么答案是否定的,没有直接的方法来提取最重要的特征,因为分类过程是以完全不同的方式执行的。

关于machine-learning - 文本分类 - 如何找到对决策影响最大的特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20830964/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com