nlp - 以conll格式输出结果(POS-tagging, stanford pos tagger)-6ren

nlp - 以conll格式输出结果(POS-tagging, stanford pos tagger)

转载作者：行者123 更新时间：2023-12-01 14:59:34

27

4

我正在尝试使用 Stanford POS-tagger，我想问一下是否可以解析(实际上只有 pos 标签就足够了)英文文本并以 conll 格式输出结果。有这样的选择吗？

我正在使用 Stanford pos tagger 的完整 3.2.0 版本

非常感谢

最佳答案

当谈到 CONLL 格式时，我想您指的是 CONLL2000 分块任务格式:

   He        PRP  B-NP
   reckons   VBZ  B-VP
   the       DT   B-NP
   current   JJ   I-NP
   account   NN   I-NP
   deficit   NN   I-NP
   will      MD   B-VP
   narrow    VB   I-VP
   to        TO   B-PP
   only      RB   B-NP
   #         #    I-NP
   1.8       CD   I-NP
   billion   CD   I-NP
   in        IN   B-PP
   September NNP  B-NP
   .         .    O

CONLL分块任务格式一共有三列:

token(即单词)
POS 标签
BIO (begin, inside, outside) block /短语标签

遗憾的是，如果您使用 stanford MaxEnt 标记器，它只会给您token 和POS 信息，但没有BIO block 信息。

java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/left3words-wsj-0-18.tagger -textFile short.txt -outputFormat tsv 2> /dev/null

使用上面的命令，Stanford POS 标记器已经为您提供了制表符分隔格式，只是它没有第 3 列(请参阅 http://nlp.stanford.edu/software/pos-tagger-faq.shtml):

   He        PRP
   reckons   VBZ
   the       DT
   ...

要获得 BIO 列，您需要要么:

一个统计组 block 器或
一个完整的解析器

请参阅 http://www-nlp.stanford.edu/links/statnlp.html 以获取分块器/解析器列表，如果您想坚持使用斯坦福工具，我建议使用斯坦福解析器，但它为您提供了括号内的解析格式，您必须进行一些后处理才能将其放入 CONLL2000格式，见http://nlp.stanford.edu/software/lex-parser.shtml

关于nlp - 以conll格式输出结果(POS-tagging, stanford pos tagger)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18948712/

27

4

0

文章推荐： jsf - Richfaces 工具提示组件控制参数

文章推荐： java - 玩!框架强化流程

文章推荐： java - 尝试使用 SmbFileInputStream

文章推荐： perl - 图片::草莓 Perl 5.12 上的 Magick

pos-for-.net - 带有 .NET POS 的 POS 系统
我计划使用 pos for .net 创建我自己的 POS 系统。到目前为止，我从未创建过任何 POS 系统或为 .net 使用过 pos。我试图找到一些教程但没有成功，有人知道一些好的网站或书籍吗
python - pygame surface.blit(bg,pos,pos) 对比。 surface.blit(bg,pos)，你明白这个吗？
阅读 pygame 教程 here ，你会发现这个例子:(箭头是我的) for o in objects: screen.blit(background, o.pos, o.pos) # Re
Android POS 打印机 ESC/POS
所以我一直在为蓝牙打印机编写 Android 应用程序一段时间，我意识到这实际上是 ESC/POS 标准:http://nicholas.piasecki.name/blog/wp-content/u
odoo - 如何将每件商品的 POS 餐厅备注添加到 POS 餐厅收据中？
我设法在上更改了 POS 收据模板/addons/point_of_sale/static/src/xml/pos.xml 其中位于: 但是如何更改 PosTicket 上的详细信息？
C - 子字符串(从 POS 到 POS)
我有一个长度为 32 的字符数组，想从中取出某些字符。例如 111111000000000000000000111111 #include #include /* Creates a sub-s
pos-tagger - Parsey McParseface 中使用了 POS 标签和依赖标签集的定义？
Parsey McParseface输出的POS标签和Depedency标签在 tag-set 中给出和 label-set文件 here分别。 Syntaxnet自述文件概述了该模型是在 Penn
nlp - 以conll格式输出结果(POS-tagging, stanford pos tagger)
我正在尝试使用 Stanford POS-tagger，我想问一下是否可以解析(实际上只有 pos 标签就足够了)英文文本并以 conll 格式输出结果。有这样的选择吗？我正在使用 Stanford
python - 将平均感知器标记器 POS 转换为 WordNet POS 并避免元组错误
我有使用 NLTK 的平均感知器标记器进行词性标记的代码: from nltk.corpus import wordnet from nltk.stem import WordNetLemmatize
java - 为 POS 打印机编写正确的 ESC/POS 命令
我正在尝试为 58mm POS 热敏打印机编写正确的 ESC/POS 命令。我尝试将此命令作为 ASCII 文本输入，并将其转换为 HEX，但在这两种情况下，打印机都只打印此代码，而不是收据输出。代码
python - spaCy NLP word.pos 返回数字而不是 POS 标签
我正在使用 spaCy 库进行 POS 标记，但是当我运行这段代码时，它会返回数字来代替 pos 标签: import spacy from spacy.lang.fr.examples import
html - 没有 pos 的垂直居中图像 :absolute inside pos:relative
我博客的标题显示标题后面有一张图片。我希望这张图片有自己的高度直到它变得大于50vh(用户视口(viewport)的 50%)。但正常行为是图像从底部裁剪，我希望图像从顶部和底部裁剪(换句话说:我希
Python:将 NLTK Stanford POS 标签映射到 WordNet POS 标签
我正在阅读句子列表并使用 NLTK 的 Stanford 词性标注器标记每个单词。我得到这样的输出: wordnet_sense = [] for o in output: a = st.ta
.net - 将 C++ POS 控件与 .NET POS SDK 连接时出现问题
我们正在尝试实现一个支持 COM 接口(interface)的 .NET 服务对象来模拟 POSPrinter，但仍然与旧技术兼容。我们在下面的类中有我们的接口(interface)和类对象。 us
python - NLTK POS 标签 : how to put the 'Word' and its corresponding 'POS Tag' in a DataFrame
我有一个列表 list = ['about','above','account','address','after'] 我将其传递给 nltk pos 标签函数，输出看起来像这样以列表的形式: [(
c++ - 为什么 gl_FragCoord.z 不同于 ((pos.z/pos.w) + 1.0) * 0.5？
有谁知道为什么“深度”(vertShader) 不同于“gl_FragCoord.z”(从 opengl 渲染)？特别是随着 z 的减小，差异变得更大。 “深度”是否有可能在更高的 z 值下更精确？
css - 如何获得最小宽度行为(例如 float 或 pos : abs) without using a float or pos: abs 时
假设我有一个 block 元素，例如 h2: Title 然后我给它一个背景色。背景将跨越 wrapper 的整个宽度(应该如此)。如果我 float 它，或者 position: absolute
html - 当 parent 有 pos : absolute and his parent has pos: relative 时 z-index 不工作
我提供了一个 fiddle : http://jsfiddle.net/dCYdw/ 这个例子很惨，但是问题也能看出来。 .levelFive 是问题所在。这应该在所有其他元素之前，因为它的 z-in
c++ - v pos(MAX)v tmp是非类类型 ‘__gnu_cxx::__alloc_traits>::value_type {aka int}’ pos [i] .push_back(tmp);
C++(STL): Request for member ‘push_back’ in ‘pos.std::vector::operator[](((std::vector::size_type)i)
JavaScript动画每次迭代时元素的变量错误 "pos"
以下 JavaScript 中包含云图像的元素的动画的逻辑错误到底是什么？我认为“pos”变量似乎在每次迭代中都偏离了方向，而且我无法弄清楚每次迭代时云图像的运动如何变得越来越疯狂。 //CSS: #
r - 编织者忽略了fig.pos？
我正在尝试在RMarkdown文档中插入图形，但无法将其显示在正确的位置。下图显示了该问题:使用图标题时，该图显示在页面顶部而不是文档中相关段落的下面。这是此最小工作示例的代码: --- title

首页

博学

6Ren·AI

商城

nlp - 以conll格式输出结果(POS-tagging, stanford pos tagger)