- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在查看 Mallet 源代码,似乎大多数分类器实现(例如朴素贝叶斯)并没有真正考虑到功能选择,即使 InstanceList
类具有setFeatureSelection
方法。
现在我想对我的数据集进行一些快速实验,其中涉及特征选择。我在想,从技术快捷方式的角度来看,我可能会获得排名最低的特征,并将实例 vector 中的这些值设置为 0。这在机器学习中是否相当于分类器训练中的特征选择,而根本不考虑它们(如果不涉及平滑,例如拉普拉斯估计)?
谢谢
最佳答案
是的,将特征值设置为零与将其从特征向量中删除具有相同的效果,因为 MALLET 没有“缺失特征”的概念,只有零和非零特征值。
不过,使用 FeatureSelection
类并不太痛苦。 MALLET 附带了几个内置类,这些类在幕后应用基于 RankedFeatureVector 子类的“掩码”。例如,要使用信息增益特征选择,您应该能够执行以下操作:
FeatureSelection fs = FeatureSelection(new InfoGain(ilist), numFeatures);
ilist.setFeatureSelection(fs);
您还可以实现自己的 RankedFeatureVector
子类 ( the API is here ) 以获得更多自定义功能。要以其他方式手动选择功能,您仍然可以通过创建一个功能掩码作为 BitSet
来实现,其中包含您要使用的所有功能 ID(来自字母表),例如:
java.util.BitSet featureMask = /* some code to pick your features */;
FeatureSelection fs = FeatureSelection(ilist.getAlphabet(), featureMask);
ilist.setFeatureSelection(fs);
一般来说,我建议使用 FeatureSelection
对象,而不是破坏性地更改实例数据。
关于java - Mallet 特征选择类似于将特征值设置为 0,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19176473/
我想使用 --use-ngrams true 选项运行 mallet,但似乎无法正常工作。 bin\mallet import-file --input ovary.txt --output ovar
这是我第一次使用槌 LDA。基本上,我下载了 mallet-2.0.8 zip 文件和 JDK。我安装了 JDK,将 mallet-2.0.8 提取到目标文件夹。我设置了 MALLET_HOME。这是
我尝试使用 Java 中的 Mallet 实现文档分类器。我已经有一个基本包含特征值的文件。所以我不想运行整个 raw text 处理管道。 目前我的特征文件中的一行看起来像这样(2 个特征,ID 和
我使用的是 Windows 7。我安装了 Mallet,当我进入 Mallet 目录时它运行得很好。但是,我正在使用一些调用它的 python 软件( https://github.com/uwgra
我正在使用 CRF 在 Mallet 上开发一个 NER 系统。 您知道是否可以收集每个预测的特征贡献吗?我需要知道并理解 CRF 模型的精确行为。 有什么建议吗? 谢谢。 干杯,乌克兰 最佳答案 是
我正在寻找有人写/知道MALLET类的详细信息。我知道这是解决ML问题的好工具,现在我尝试实现此处Andrew McCallum, Kedar Bellare and Fernando Pereira
我正在使用 MALLET 进行主题分析,它在几千行和一百左右行的文本文件(“topics.txt”)中输出结果,其中每行由制表符分隔的变量组成,如下所示: Num1 text1 topic1 prop
我已经有一个使用 SimpleTagger 训练过的 CRF 训练模型。 SimpleTagger.main(new String[] { "--tra
老实说,我对 LDA 并不熟悉,但我的一个项目需要使用 MALLET 的主题建模。 我的问题是:给定特定时间戳内的一组文档作为主题模型的训练数据,使用模型(使用推理器)来跟踪主题趋势是否合适,对于文档
我使用 MALLET 进行主题建模。 http://mallet.cs.umass.edu/topics.php 首先,我尝试按照说明导入培训文档集。 bin/mallet import-dir --
MALLET 在训练主题模型时使用 --output-doc-topics 参数生成一个制表符分隔的文件,其中包含每个文档的主题分布。它看起来像这样: doc# filename topi
我用 Mallet 训练了 maxent 文档分类模型,结果是 130MB,这对于我希望运行它的实例来说太大了。我想知道是否有一种方法可以潜在地减少模型的词汇量,从而减少整体模型的大小。有管道可以做到
我正在使用 mallet 库进行主题建模。我的数据集位于 filePath 路径中,并且 csvIterator 似乎可以读取数据,因为 model.getData() 有大约 27000 行,等于我
我使用 Java-Mallet API 通过 LDA 进行主题建模。 API 产生以下结果:主题:关键字1(计数)、关键字2(计数) 例如 主题 0:文件 (12423)、测试 (3123) ...主
我正在尝试运行 Mallet 的主题建模,但出现以下错误: Couldn't open cc.mallet.util.MalletLogger resources/logging.properties
我有一个格式如下的 csv 文件 产品名称,产品评论 现在使用 mallet 我必须训练分类器,以便如果输入包含产品评论的测试数据集,它应该告诉我特定评论属于哪个产品 mallet java api
我正在尝试将 mallet 包合并到我的 java 代码中以完成我的序列标记任务。但是,我不太确定我应该如何仅根据 mallet 网站上的数据导入指南进行操作。谁能帮我解决这个问题? 我的第一个问题是
我正在查看 Mallet 源代码,似乎大多数分类器实现(例如朴素贝叶斯)并没有真正考虑到功能选择,即使 InstanceList 类具有setFeatureSelection 方法。 现在我想对我的数
有人有幸加载过之前训练过的模型吗?翻阅其API ,CRFWriter类是拼图的1/2,但是你到底如何CRFRead(类不存在) 感谢您的帮助。 最佳答案 根据您使用的训练器,您应该能够将对象转换为 C
我正在尝试使用 Mallet 2.0.7 执行 LDA 主题建模。从训练类(class)的输出来看,我可以训练 LDA 模型并获得良好的结果。此外,我可以使用该过程中内置的推理器,并在重新处理我的训练
我是一名优秀的程序员,十分优秀!