- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想根据文本中出现的关键字进行文本分类,因为我没有样本数据来使用朴素贝叶斯进行文本分类。
示例:
我的文档有一些单词“家庭,母亲,父亲, child ......”,该文档的类别是家庭。或者“足球,网球,得分......”,该类别是体育
这种情况下最好的算法是什么?。有没有针对这个问题的 api java?
最佳答案
您拥有的是特征标签,即特征而不是实例上的标签。有几种利用这些方法的方法,但通常假设除了特征标签之外还具有实例标签(即文档上的标签)。这种范式被称为“双重监督”。
无论如何,我知道至少有两种方法可以单独从标记的特征中学习。第一个是Generalized Expectation Criteria ,它会惩罚偏离先验信念的模型参数(例如,“moether”通常应该与“family”相关)。这种方法的缺点是有点复杂,但优点是在Mallet中有一个封装良好的开源Java实现。工具包(具体参见here)。
第二种选择基本上是使用朴素贝叶斯并为已知的单词/类关联提供较大的先验 - 例如,P(“family”|“mother”) = .8,或其他。所有未标记的单词都将被分配一些优先级,大概反射(reflect)了类别分布。然后,您将仅根据类别的流行程度和标记的术语信息有效地做出决策。解决proposed a model like this recently ,并且有一个可用的网络工具。
关于machine-learning - 通过关键词聚类进行主题检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12836973/
当我说这个 using (Entities db = new Entities()) { return db.TableName.AsQueryable().ToList(); } 因为返回了
它应该表现得像Delicious toolbar对于 Firefox 来说;它列出了可能要点击的标签。效果如下图: 代码应该能够找到文本的关键词。有什么好的算法或者开源项目推荐吗? 我找到了 this
我刚刚在市场上上传了我的第一个应用程序。一切顺利,看起来很好。我尝试了几个关键词来搜索它,这些词在我的描述和促销文本中也有,但有些词找不到我的应用程序,有些却找到了。 关键字策略如何在市场上的应用程序
我已经开始在我的提交消息中使用对 Maniphest 任务的引用,这对于自动关闭任务等非常有用。 我发现这个页面有很多关键词,但我很好奇是否有更多或任何关于如何使用它们的文档。 https://pha
我在 Qt 文档中遇到过这段代码: Counter a, b; QObject::connect(&a, &Counter::valueChanged, &b, &C
有人可以确认这是否确实是一个错误吗? (如果是这样,我将离开并将其提交给 Apple)。 尝试获取 kAudioSessionProperty_AudioRoute 在 4.3 之前的任何版本的模拟器
目前我正在使用它来搜索我的词典数组(来自 plist 文件): for(NSDictionary *wine in mainArray) { NSString *wineNam
我是一名优秀的程序员,十分优秀!