- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用NLTK python进行情感分析,我的数据有大约200,000条评论。要使用朴素贝叶斯分类器,我需要具有标记的训练集。由于我的数据没有标签,因此我手动创建了大约100条正面和负面评论。但是我不认为这是这样做的方式。我听说我需要有20%的数据作为训练集来训练分类器,并将其应用于其余80%的数据。
有没有更好的方法来为朴素贝叶斯分类器生成训练集?感谢您的帮助,如果您不清楚这些问题,请告诉我。
最佳答案
我们仅使用大约100-200个训练样本(取决于特定的分类)就以非常高的准确性对数十万个段落进行分类,取得了巨大的成功。
我们对随机选择的样本进行了手工过滤,以确保它们彼此之间不太相似(因此代表了表达概念的不同方式)。我们使用RapidMiner进行分类,而不是使用NLTK,但是我希望算法非常相似。
用100条评论来运行分类器,然后对不在训练集中的100条随机评论进行分类。检查准确性,如果准确性不符合您的期望,则将更多评论添加到训练集中。
关于data-mining - 情绪分析训练集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29858967/
非常强大的开源数据挖掘工具 SPMF 的文档分别列出了它们: http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms
我已经开始学习数据挖掘,并希望用 C++/Java 创建一个小项目,它允许我利用数据库,比如来自 twitter 的数据库,然后发布一组特定的结果(例如,提要上的所有新闻项目)。我想知道怎么办?我应该
我想知道在挖掘关联规则中是否可以自动确定最小支持度和最小置信度?如果是这样,任何指向资源的提示或指针都会很棒。 最佳答案 是的,有一些方法可以自动确定 minsup 和 minconf 阈值。 但首先
我刚刚在训练集上计算了 PCA,Weka 以选择和计算它们的方式返回了新属性。 现在,我想使用这些数据构建一个模型,然后在测试集上使用该模型。 不知道有没有办法根据新的属性类型自动修改测试集? 最佳答
我见过许多用于序列模式挖掘的数据库,它们在这些数据库中采用的序列就像 一个括号中的一组项目如 (af), (abf), (bde) 代表什么? 这是否意味着它们彼此相关或与其他事物相关 我们根据什
我想创建自己的简单推荐系统,关于书籍。但是有一些问题 - 一个人不可能(至少,非常困难)为算法组织训练数据集。 那么,是否有任何免费的数据集或测验,其中包含有关人们投票的信息、哪些书籍以及他们喜欢多少
我最近读到了一个来自 Google 的新的 Google 代码托管(开源)项目,该项目允许您对各种输入文件执行数据挖掘和分析。甚至还有一段视频显示用户导入 Excel 文件并在各种条件下进行过滤。但是
假设我有下面提到的数据。 11AM user1 刷 11:05AM user1 Prep Brakfast 11:10AM user1 吃早餐 11:15AM user1 洗澡 上午 11:30 us
我需要根据它们具有不同介词的分布找到自然出现的名词类别(例如实体,工具,时间,地点等)。我尝试使用k-means聚类,但效果不佳,效果不佳,在我要查找的类上有很多重叠(可能是由于类的非球形形状和k-m
根据维基百科,monotonic function是一个正在增加或减少的函数。如果函数在增加和减少,则它不是单调函数或反单调函数。 但是数据挖掘书“数据挖掘:概念和技术”将反单调属性描述为:如果一个集
我想知道当格式不同或其中一个拼写错误时如何匹配邮政地址。 到目前为止,我已经找到了不同的解决方案,但我认为它们已经过时且效率不高。我确信存在一些更好的方法,所以如果你有引用资料供我阅读,我相信这个主题
在weka中,我的主要目标是在0.004支持度阈值下找到所有可能的频繁项集。但是,在weka中,我还没有看到任何写支持阈值的专栏。它需要一些参数,如 -n -t -c -d 。要使用支持阈值运行 ap
我最近才了解支持向量机。据我了解,超平面用于将数据(提升到更高维度)分成两个相互排斥的部分(分区)。我的问题是为什么它应该是超平面而不是具有曲率的曲面?这不会提供更适合的分离“表面”吗? 最佳答案 非
我正在研究医疗数据集,其中包括有关疾病和治疗类型的变量。 例如疾病是结肠癌,它的决策变量 (x,y,z,t) 和治疗类型是化疗、放射治疗等。 我想为我的 KDD 和探索性类(class)获取这样的数据
我是 Rapid miner 5 的新手,只想知道如何在我的数据中找到噪音并在图表中显示它们以及如何删除它们? 最佳答案 一个复杂的问题,因为它取决于您所说的噪音是什么意思。 如果您的意思是查找值明显
我是数据挖掘的新手,并且对关联规则和频繁项挖掘感到困惑。对我来说,我认为两者都是一样的,但我需要这个论坛专家的意见 我的问题是 关联规则挖掘和频繁项集挖掘有什么区别? 谢谢 最佳答案 关联规则类似于“
我最近发射了一个带有气压高度计的火箭,该高度计精确到大约 10 英尺(通过飞行期间获取的数据计算)。记录的数据以每个样本 0.05 秒的时间增量进行,高度与时间的关系图看起来与在整个飞行过程中缩小时的
关闭。这个问题是off-topic .它目前不接受答案。 想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
我很好奇这个过程是如何工作的。这些站点(http://www.sharkscope.com和http://www.pokertableratings.com)每天从安全的扑克网络(如PokerStar
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi
我是一名优秀的程序员,十分优秀!