- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我刚刚开始在槌中使用 SimpleTagger 类。我的印象是它需要二进制功能。我想要实现的模型具有正整数值特征,我想知道如何在 mallet 中实现它。另外,我听说如果要使模型有意义,则需要对非二进制特征进行归一化。我将不胜感激有关如何做到这一点的任何建议。
附:是的,我知道有一个专门的槌邮件列表,但我已经等了将近一天才能让我的订阅获得批准才能在那里发帖。我只是赶时间。
最佳答案
嗯,现在是 6 年后。如果您不再着急,可以查看 Java API 来创建实例。一个最小的例子:
private Instance createInstance(LabelAlphabet labelAlphabet){
// observations and labels should be equal size for linear chain CRFs
TokenSequence observations = new TokenSequence();
LabelSequence labels = new LabelSequence(labelAlphabet, n);
observations.add(createToken());
labels.add("idk, some target or something");
return new Instance(
observations,
label,
"myInstance",
null
);
}
private Token createToken() {
Token token = new Token("exampleToken");
// Note: properties are not used for computing (I think)
token.setProperty("SOME_PROPERTY", "hello");
// Any old double value
token.setFeatureValue(featureVal, 666.0);
// etc for more features ...
return token;
}
public static void main(String[] args){
// Note the first arg is false to denote we *do not* deal with binary features
InstanceList instanceList = new InstanceList(new TokenSequence2FeatureVectorSequence(false, false));
LabelAlphabet labelAlphabet = new LabelAlphabet();
// Converts our tokens to feature vectors
instances.addThruPipe(createInstance(labelAlphabet));
}
SimpleTagger
,只需定义二元特征,如
HAS_1_LETTER
,
HAS_2_LETTER
等,虽然这看起来很乏味。
关于nlp - 在槌中处理 CRF 的整数值特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1696652/
我是CRF++的新手。我在教自己看它的手册: http://crfpp.googlecode.com/svn/trunk/doc/index.html?source=navbar#templ 我不明白
我正在使用以下参数与 FFmpeg 进行流式传输(实时聊天)。 ffmpeg -f dshow -rtbufsize 100M -i video="device":audio="device" \ -
FFmpeg -CRF作品? 他们如何决定这一特定秒的最佳质量? 如果我将文件按秒分割并用 -CRF 分别对每个切片进行编码,我们会得到更好的结果吗?然后加入所有切片,或者我会得到相同/更差的结果,为
如何使用地名词典或词典作为 CRF++ 中的功能? 详细说明:假设我想对人名进行 NER,并且我有一个包含常见人名的地名词典(或字典),我想使用这个地名词典作为 crf++ 的输入,我该怎么做? 我正
我刚刚开始在槌中使用 SimpleTagger 类。我的印象是它需要二进制功能。我想要实现的模型具有正整数值特征,我想知道如何在 mallet 中实现它。另外,我听说如果要使模型有意义,则需要对非二进
CRF++ 说它可以: 其页面上的“可以输出所有候选者的边际概率”:http://crfpp.sourceforge.net/ 但是在条件随机场中用于查找这些概率的公式的表示法是什么? 有人告诉我这不
我正在尝试使用 Mallet 库训练 CRF 序列模型,但缺少一些重要信息。我在库本身中找到了一个示例:https://github.com/mimno/Mallet/blob/master/src/
当我使用CRF++0.58对NE建模时程序出现问题: “读取训练数据:tagger.cpp(399) [feature_index_->buildFeatures(this)] 0.00s” 开发环境
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 7 年前。
我有一个序列标记模型,可以预测输入序列中每个单词的标记(本质上称为实体识别)。模型结构:Embeddings层→BiLSTM→CRF 因此,本质上,BiLSTM 基于标记嵌入学习特征的非线性组合,并使
我正在尝试在一个简单的 jar 应用程序中使用 ffmpeg 转换视频,但是我得到了这个 Unrecognized option 拆分参数列表时出错:找不到选项。 我正在执行以下操作: List c
我需要创建一个 h265,其区域使用不同的 CRF 压缩。 我正在考虑使用具有不同 CRF 的 h265 从原始视频生成 2 个压缩视频,然后混合每个帧。最后一步是使用两者之间的最小 CRF 从混合帧
我需要开发一个图像标记应用程序,为此我正在考虑在一组超像素上使用条件随机场 (CRF),有很多论文指出这项技术是最先进的这个任务。与往常一样,该任务可以分为两个任务: 训练模型:对于这个问题,将获取参
我开始使用 crf++ 和 crfsuite(两者都使用非常相似的文件格式)。我想做与图像相关的事情(分割、 Activity 识别等)。我的主要问题是如何构建训练文件。有人使用 crf 和图像吗?有
如何将朴素贝叶斯预测的句子类别表示为 CRF++ 或 Wapiti 中的特征? 例如,如果Tumblr merges with Yahoo.这个句子被分类为Business,那么在为crf编写训练文件
我正在尝试使用机器学习来标记句子(每个句子都有一个标签,我假设句子是相互独立的)。我认为线性 CRF 模型适合这种情况,但我有一些问题。 我尝试使用CRF++ (我看到的其他实现似乎具有类似的格式)。
在 CRF 模型中添加数值特征是否可能/很好?例如序列中的位置。 我正在使用CRFsuite 。似乎所有功能都会转换为字符串,例如'pos=0'、'pos=1',这样就失去了欧氏距离的含义。 或者我应
我想使用 Mallet 在相当大的数据集上以留一序列方式运行条件随机字段。因此,我需要多线程计算来处理这个计算问题,要么通过 1) 并行训练多个 CRF,每个 CRF 在单个线程上训练,要么 2) 以
分类器经常因 OutOfMemoryError 失败。请提出建议。 我们有 UIMA 管道,它调用 5 个模型 jar(基于 mallet CRF),每个大约 30MB。 -Xms 设置为 2G,-X
我使用 GenericAcrfTui 训练了一个 CRF,它将一个 ACRF 写入一个文件。我不太确定如何加载和使用经过训练的 CRF 但是 import cc.mallet.grmm.learnin
我是一名优秀的程序员,十分优秀!