sentiment-analysis - 一般来说，TF-IDF 什么时候会降低准确率？-6ren

sentiment-analysis - 一般来说，TF-IDF 什么时候会降低准确率？

转载作者：行者123 更新时间：2023-12-05 08:23:36

25

4

我正在使用朴素贝叶斯模型将包含 200000 条评论的语料库训练成正面评论和负面评论，我注意到执行 TF-IDF 实际上将准确度降低了大约 2%(在对 50000 条评论的测试集进行测试时) .所以我想知道 TF-IDF 是否对它使用的数据或模型有任何潜在的假设，即在任何情况下使用它会降低准确性？

最佳答案

在某些情况下，TF*IDF 的 IDF 组件可能会损害您的分类准确性。

假设以下人工的、简单的分类任务，是为了说明而制作的:

A 类:包含单词“corn”的文本
B 类:不包含“ Jade 米”一词的文本

现在假设在 A 类中有 100 000 个示例，在 B 类中有 1000 个示例。

TFIDF 会怎样？ corn的逆向文档频率会很低(因为它几乎在所有文档中都有)，特征'corn'会得到一个非常小的TFIDF，这是分类器使用的特征的权重。显然，“ Jade 米”是这个分类任务的最佳特征。这是 TFIDF 可能会降低分类准确性的示例。更一般地说:

当类(Class)不平衡时。如果您在一个类别中有更多实例，则频繁类别的好词特征可能具有较低的 IDF，因此它们的最佳特征将具有较低的权重
当你有高频词可以很好地预测其中一个类别时(在该类别的大多数文档中找到的词)

关于sentiment-analysis - 一般来说，TF-IDF 什么时候会降低准确率？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39152229/

25

4

0

文章推荐： asp.net - VS2015有调试webapi路由的工具吗？

文章推荐： php - 在 Apache 服务器上找不到 Laravel 5.1 404

文章推荐： Angular 2 Map> 可以创建吗？

python - 一般来说，遍历未知数量列表的最佳方法是什么？
给定一种支持通过列表进行迭代的编程语言，即 for element in list do ... 如果我们有一个将动态数量的列表作为输入的程序，list[1] ... list[n](其中 n
vba - 一般来说，哪个会产生更好的性能？
我有一个小难题。众所周知，按类型定义变量并避免使用变体是最明显的性能技巧。问题是我正在尝试编写一个可以处理隐式类型参数(基本上是变体)的例程库。举个例子: Sub Test(A As String)
php - 一般来说，如何优化多层应用程序的性能
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
java - 一般来说，我应该在插入元素之前检查它是否在集合中吗？
我目前正在使用 Java，所以我更想知道就效率而言，直接插入它是否更好。尽管我也很好奇这是否是一种不好的做法。最佳答案不需要。 API 会告诉您它是否已经存在(如果您需要知道)，并且 Collec
c++ - 一般来说，大量的小函数调用会损害性能吗？
假设我需要完成三项任务。第一个选项是这样的: void doAllStuffInOneFunc() { //code block for task 1 ... ...
algorithm - 一般来说，恢复下载是如何工作的？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
java - 一般来说，我是为智能手机应用程序编写节省内存的代码还是为简单对象编写代码以节省处理时间的代码？
我不确定这是最好的例子，但这里是。假设我想在 Android 应用程序中将对象绘制到 Canvas 上。我需要做一些数学运算并调用一个方法来返回屏幕大小以确定在哪里绘制它，因为我的应用程序应该支持多个
c++ - 一般来说，处理虚假唤醒的正确方法是什么？
在下面的选项中，有没有正确的方法来处理使用条件变量时的虚假唤醒？ 1) 使用 bool 值将 wait(unique_lock_ul) 放入无限的 while 循环中 unique_lock ul(m
sql - 一般来说，数据库中的每个表都应该有一个身份字段用作主键吗？
我遇到了连接问题:取回太多记录。我在连接集中添加了一个表，并扩展了行数。通常发生这种情况时，我会选择连接中涉及的所有 ID 字段。这样一来，扩展发生的位置就很明显了，我可以更改连接的 ON 来修复它。
c++ - 游戏如何围绕物体移动(一般来说)
我敢肯定，这个问题不仅只有 1 个答案，而且游戏引擎是否真的会更改内存中的 vector ，或使用 gltransformations？因为一直推和弹出矩阵似乎效率低下，但如果你不断修改vertici
C++:一般来说，我应该使用字符串还是字符数组？
我对程序员在 C 和 C++ 中进行不同编码的基本方式有点模糊。特别是一件事是 C++ 中的字符串在 char 数组上的使用，反之亦然。那么，一般来说，我应该使用字符串还是字符数组，为什么？最佳答案
c++ - 一般来说，什么是迭代器？
当我尝试使用接受“通用迭代器”的 ctor 编写 C++ 类模板时，就会出现这个问题。我不知道这里用general这个词是否合适，但我的意思是它可以像STL容器一样接受迭代器。换句话说，我对迭代器感
compiler-warnings - 一般来说，我应该将编译器设置为将警告视为错误吗？
修复警告的短期烦恼是否可以从长远来看支付红利？这样做通常可以避免哪些类型的运行时错误？最佳答案我的观点是警告是有原因的，忽略它们会带来危险。虽然有些人真的很挑剔，但在大多数情况下，他们这样做是有充
javascript - 在Javascript中，一般来说，如何使异步函数同步？
假设第三方 javascript(不是 NodeJS)模块中有这样的函数: Api.IoAsync(parameter, function(err, message) { ... }) 我想将其转换为
haskell - zipper 共轭，一般来说
给定任何容器类型，我们可以形成(以元素为中心的) zipper ，并且知道这个结构是一个 Comonad。最近在 another Stack Overflow question 中详细探讨了以下类型:
python - 一般来说，我应该编写代码体的多个版本，以防用户丢失软件包吗？
假设我正在构建一个 Python 程序，一开始我导入了两个模块 - 默认情况下包含在 python 库中的 something 和 somethingElse强>，但事实并非如此。我有两个几乎相同的
machine-learning - 一般来说，如何解释多标签分类器产生的概率？
我见过的大多数东西都只是使用最大概率，这看起来不错，但并没有给你任何信心的迹象。相对概率也应该很重要，对吧？让我解释一下: 对于二元分类器，假设您的类别是 A 和 B。 P(A) = 0.01、P(B
machine-learning - 一般来说，选择哪种机器学习分类器？
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
c++ - 一般来说，当它们共享同一个父类时，是否有办法从另一个子类访问子类？
所以让我们考虑我们有一个父类 class Parent { }; 我有两个 child 类(class) class Child1 : public Parent { void AccessFunc
css - 一般来说，外部CSS文件中的基础知识是否有 "order"
我刚刚在几个人的帮助下学习外部 CSS。我正在尝试比较两张纸并将其合并为一张，但因为是 2 个人写的，所以我需要整理出他们为 ID 和类提供的名称。一张纸变得非常广泛，但另一张纸有一些我想保留的更新信

首页

博学

6Ren·AI

商城

sentiment-analysis - 一般来说，TF-IDF 什么时候会降低准确率？