nlp - 在槌中处理 CRF 的整数值特征-6ren

nlp - 在槌中处理 CRF 的整数值特征

转载作者：行者123 更新时间：2023-12-01 05:46:23

25

4

我刚刚开始在槌中使用 SimpleTagger 类。我的印象是它需要二进制功能。我想要实现的模型具有正整数值特征，我想知道如何在 mallet 中实现它。另外，我听说如果要使模型有意义，则需要对非二进制特征进行归一化。我将不胜感激有关如何做到这一点的任何建议。

附:是的，我知道有一个专门的槌邮件列表，但我已经等了将近一天才能让我的订阅获得批准才能在那里发帖。我只是赶时间。

最佳答案

嗯，现在是 6 年后。如果您不再着急，可以查看 Java API 来创建实例。一个最小的例子:

private Instance createInstance(LabelAlphabet labelAlphabet){
  // observations and labels should be equal size for linear chain CRFs
  TokenSequence observations = new TokenSequence();
  LabelSequence labels = new LabelSequence(labelAlphabet, n); 

  observations.add(createToken());
  labels.add("idk, some target or something");     

  return new Instance(
            observations,
            label,
            "myInstance",
            null
    );  
}

private Token createToken() {
    Token token = new Token("exampleToken");

    // Note: properties are not used for computing (I think)
    token.setProperty("SOME_PROPERTY", "hello");

    // Any old double value
    token.setFeatureValue(featureVal, 666.0);      

    // etc for more features ...

    return token;
 }


public static void main(String[] args){
  // Note the first arg is false to denote we *do not* deal with binary features
  InstanceList instanceList = new InstanceList(new TokenSequence2FeatureVectorSequence(false, false));    

  LabelAlphabet labelAlphabet = new LabelAlphabet();
  // Converts our tokens to feature vectors
  instances.addThruPipe(createInstance(labelAlphabet)); 
}

或者，如果您想继续使用 SimpleTagger ，只需定义二元特征，如 HAS_1_LETTER , HAS_2_LETTER等，虽然这看起来很乏味。

关于nlp - 在槌中处理 CRF 的整数值特征，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1696652/

25

4

0

文章推荐： model-view-controller - jqgrid如何动态创建列

文章推荐： java - 具有 SDL 兼容性的 Android

文章推荐： vba - 让我开始编程和调试 Microsoft Office 自动化

crf - 如何制作CRF++的模板文件？
我是CRF++的新手。我在教自己看它的手册: http://crfpp.googlecode.com/svn/trunk/doc/index.html?source=navbar#templ 我不明白
FFmpeg 流式传输低 CRF 导致质量低下
我正在使用以下参数与 FFmpeg 进行流式传输(实时聊天)。 ffmpeg -f dshow -rtbufsize 100M -i video="device":audio="device" \ -
ffmpeg - FFmpeg CRF 的工作原理
FFmpeg -CRF作品？他们如何决定这一特定秒的最佳质量？如果我将文件按秒分割并用 -CRF 分别对每个切片进行编码，我们会得到更好的结果吗？然后加入所有切片，或者我会得到相同/更差的结果，为
nlp - 如何将地名词典或词典表示为 crf++ 中的特征？
如何使用地名词典或词典作为 CRF++ 中的功能？详细说明:假设我想对人名进行 NER，并且我有一个包含常见人名的地名词典(或字典)，我想使用这个地名词典作为 crf++ 的输入，我该怎么做？我正
nlp - 在槌中处理 CRF 的整数值特征
我刚刚开始在槌中使用 SimpleTagger 类。我的印象是它需要二进制功能。我想要实现的模型具有正整数值特征，我想知道如何在 mallet 中实现它。另外，我听说如果要使模型有意义，则需要对非二进
machine-learning - CRF++中使用的边际概率公式是什么？
CRF++ 说它可以: 其页面上的“可以输出所有候选者的边际概率”:http://crfpp.sourceforge.net/ 但是在条件随机场中用于查找这些概率的公式的表示法是什么？有人告诉我这不
java - Mallet CRF 序列分类训练数据格式
我正在尝试使用 Mallet 库训练 CRF 序列模型，但缺少一些重要信息。我在库本身中找到了一个示例:https://github.com/mimno/Mallet/blob/master/src/
linux - CRF+0.58训练NE模型失败
当我使用CRF++0.58对NE建模时程序出现问题: “读取训练数据:tagger.cpp(399) [feature_index_->buildFeatures(this)] 0.00s” 开发环境
c++ - 计算机视觉问题的开源 CRF 实现？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
python - 线性链 CRF 分类器使用哪个激活函数？
我有一个序列标记模型，可以预测输入序列中每个单词的标记(本质上称为实体识别)。模型结构:Embeddings层→BiLSTM→CRF 因此，本质上，BiLSTM 基于标记嵌入学习特征的非线性组合，并使
java - ffmpeg 中无法识别的选项 'crf 21'
我正在尝试在一个简单的 jar 应用程序中使用 ffmpeg 转换视频，但是我得到了这个 Unrecognized option 拆分参数列表时出错:找不到选项。我正在执行以下操作: List c
video - 特定区域的 h265 和 CRF
我需要创建一个 h265，其区域使用不同的 CRF 压缩。我正在考虑使用具有不同 CRF 的 h265 从原始视频生成 2 个压缩视频，然后混合每个帧。最后一步是使用两者之间的最小 CRF 从混合帧
image-processing - 使用 CRF 的图像标记性能
我需要开发一个图像标记应用程序，为此我正在考虑在一组超像素上使用条件随机场 (CRF)，有很多论文指出这项技术是最先进的这个任务。与往常一样，该任务可以分为两个任务: 训练模型:对于这个问题，将获取参
image-processing - CRF++ 或 CRFSuite
我开始使用 crf++ 和 crfsuite(两者都使用非常相似的文件格式)。我想做与图像相关的事情(分割、 Activity 识别等)。我的主要问题是如何构建训练文件。有人使用 crf 和图像吗？有
machine-learning - CRF++/Wapiti 包括整个句子的类别作为特征
如何将朴素贝叶斯预测的句子类别表示为 CRF++ 或 Wapiti 中的特征？例如，如果Tumblr merges with Yahoo.这个句子被分类为Business，那么在为crf编写训练文件
machine-learning - CRF(条件随机场)可以用来标记整个句子吗？
我正在尝试使用机器学习来标记句子(每个句子都有一个标签，我假设句子是相互独立的)。我认为线性 CRF 模型适合这种情况，但我有一些问题。我尝试使用CRF++ (我看到的其他实现似乎具有类似的格式)。
machine-learning - 我可以在 CRF 模型中使用数值特征吗
在 CRF 模型中添加数值特征是否可能/很好？例如序列中的位置。我正在使用CRFsuite 。似乎所有功能都会转换为字符串，例如'pos=0'、'pos=1'，这样就失去了欧氏距离的含义。或者我应
java - Java 中的线程安全或多线程 CRF 支持连续变量？
我想使用 Mallet 在相当大的数据集上以留一序列方式运行条件随机字段。因此，我需要多线程计算来处理这个计算问题，要么通过 1) 并行训练多个 CRF，每个 CRF 在单个线程上训练，要么 2) 以
java - Mallet CRF 分类器出现 OutOfMemoryError
分类器经常因 OutOfMemoryError 失败。请提出建议。我们有 UIMA 管道，它调用 5 个模型 jar(基于 mallet CRF)，每个大约 30MB。 -Xms 设置为 2G，-X
java - 如何加载和使用经过 Mallet 训练的 CRF？
我使用 GenericAcrfTui 训练了一个 CRF，它将一个 ACRF 写入一个文件。我不太确定如何加载和使用经过训练的 CRF 但是 import cc.mallet.grmm.learnin

首页

博学

6Ren·AI

商城

nlp - 在槌中处理 CRF 的整数值特征