- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用朴素贝叶斯模型将包含 200000 条评论的语料库训练成正面评论和负面评论,我注意到执行 TF-IDF 实际上将准确度降低了大约 2%(在对 50000 条评论的测试集进行测试时) .所以我想知道 TF-IDF 是否对它使用的数据或模型有任何潜在的假设,即在任何情况下使用它会降低准确性?
最佳答案
在某些情况下,TF*IDF 的 IDF 组件可能会损害您的分类准确性。
假设以下人工的、简单的分类任务,是为了说明而制作的:
现在假设在 A 类中有 100 000 个示例,在 B 类中有 1000 个示例。
TFIDF 会怎样? corn的逆向文档频率会很低(因为它几乎在所有文档中都有),特征'corn'会得到一个非常小的TFIDF,这是分类器使用的特征的权重。显然,“ Jade 米”是这个分类任务的最佳特征。这是 TFIDF 可能会降低分类准确性的示例。更一般地说:
关于sentiment-analysis - 一般来说,TF-IDF 什么时候会降低准确率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39152229/
我训练了 LSTM 分类模型,但得到了奇怪的结果(0 准确率)。这是我的带有预处理步骤的数据集: import pandas as pd from sklearn.model_selection im
使用 TFlearn 构建 DNN 后,我想计算网络的准确性。 这是代码: def create_model(self): x = tf.placeholder(dtype= tf.float
Duplicate calculating Precision, Recall and F Score 我有一个带有文本描述和分类级别(即levelA和levelB)的输入文件。我想编写一个 SVM
如何计算语义分割中前 k 个准确率?在分类中,我们可以将 topk 准确率计算为: correct = output.eq(gt.view(1, -1).expand_as(output)) 最佳答案
我正在尝试解决多标签分类问题 from sklearn.preprocessing import MultiLabelBinarizer traindf = pickl
我是一名优秀的程序员,十分优秀!