- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
'最简单' getText('eat'-6ren">
tl;dr 如何将词根和词性标记组合成一个完全修饰的词?
例如:
getText('easy', 'adjective', 'superlative') --> '最简单'
getText('eat', 'verb', '3rd-person-singular') --> 'eats'
getText('spoon', 'noun', 'plural') --> 'spoons'
getText('swim', 'verb', '过去分词') --> 'swum'
等等
spaCy 可以将这个句子标记/解析为以下包含“TEXT”、“LEMMA”、词性标记(“POS”)、详细词性标记(“TAG”)等的标记:
doc = nlp(u'Apple is looking at buying U.K. startup for $1 billion')
TEXT LEMMA POS TAG DEP SHAPE ALPHA STOP
Apple apple PROPN NNP nsubj Xxxxx True False
is be VERB VBZ aux xx True True
looking look VERB VBG ROOT xxxx True False
at at ADP IN prep xx True True
buying buy VERB VBG pcomp xxxx True False
U.K. u.k. PROPN NNP compound X.X. False False
...
我想反转这个过程——在给定特定“LEMMA”/“POS”/“TAG”组合的情况下获得“TEXT”字符串。
也就是说,像
getText(lemma="look", pos="verb", tag="vbg")
将返回“looking”
。
这在 spaCy 中是否可行,如果可行,怎么做?
如果不是,是否可以使用不同的库对来自词根/引理和词性标签的单词进行取消标记?
我知道pattern.en可以复数/共轭/等(“untokenize”?)词,但使用spaCy更快的处理速度和python3兼容性会很好。
不想使用 pattern.en 的另一个原因:我想先对文本进行分词,然后再取消分词,如果两者都使用同一个库就好了。我发现 spaCy 在标记化方面比 pattern.en 好得多。 (例如,pattern.en 不会将“最简单”标记为“简单”,但 spaCy 会)。
我所说的“标记化”是指将句子拆分为词根和词性标记。
最佳答案
据我所知,spaCy 目前没有内置该功能。但是,设置 custom token attributes 会相当容易。那会做一些类似于你所要求的事情。例如,如果您想为所有动词记号定义一个过去式变位属性,您可以创建一个 VBD
函数并将其作为自定义属性应用于每个记号的 getter,如下所示:
>>> import spacy
>>> nlp = spacy.load('en')
>>> def vbd(token):
... """a bad conjugation function"""
... if token.pos_ == 'VERB':
... return token.lemma_ + 'ed'
>>> spacy.tokens.Token.set_extension('vbd', getter=vbd, default=None)
>>> doc = nlp(u'Apple is looking at buying U.K. startup for $1 billion')
>>> for token in doc:
... print(token.text, ":", token._.vbd)
Apple : None
is : beed
looking : looked
at : None
buying : buyed
U.K. : None
startup : None
for : None
$ : None
1 : None
billion : None
如您所见,该函数不是很可靠,因为它输出“beed”和“buyed”,但“looked”是正确的。
至于进行共轭的可靠方法,pattern
是我遇到的最好的库。如果您将 vbd
函数替换为正确的变位函数,并为您想要的任何其他变位或词形变化定义函数,您将非常接近您的想象。这将允许您仅将 pattern
用于共轭,但使用 spaCy
进行标记化和词形还原。
关于python - 从 spaCy 中的词根 (lemma) 和词性 (POS) 标签获取完全形成的词 "text",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47983900/
我需要您在以下方面提供帮助。近一个月来,我一直在阅读有关任务和异步的内容。 我想尝试在一个简单的 wep api 项目中实现我新获得的知识。我有以下方法,并且它们都按预期工作: public Htt
我的可执行 jar 中有一个模板文件 (.xls)。不需要在运行时我需要为这个文件创建 100 多个副本(稍后将唯一地附加)。用于获取 jar 文件中的资源 (template.xls)。我正在使用
我在查看网站的模型代码时对原型(prototype)有疑问。我知道这对 Javascript 中的继承很有用。 在这个例子中... define([], function () { "use
影响我性能的前三项操作是: 获取滚动条 获取偏移高度 Ext.getStyle 为了解释我的应用程序中发生了什么:我有一个网格,其中有一列在每个单元格中呈现网格。当我几乎对网格的内容做任何事情时,它运
我正在使用以下函数来获取 URL 参数。 function gup(name, url) { name = name.replace(/[\[]/, '\\\[').replace(/[\]]/,
我最近一直在使用 sysctl 来做很多事情,现在我使用 HW_MACHINE_ARCH 变量。我正在使用以下代码。请注意,当我尝试获取其他变量 HW_MACHINE 时,此代码可以完美运行。我还认为
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 关闭 9 年前。 要求提供代码的问题必须表现出对所解决问题的最低限度的理解。包括尝试过的解决方案、为什么
由于使用 main-bower-files 作为使用 Gulp 的编译任务的一部分,我无法使用 node_modules 中的 webpack 来require 模块code> dir 因为我会弄乱当
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 5 年前。 Improve this qu
我使用 Gridlayout 在一行中放置 4 个元素。首先,我有一个 JPanel,一切正常。对于行数变大并且我必须能够向下滚动的情况,我对其进行了一些更改。现在我的 JPanel 上添加了一个 J
由于以下原因,我想将 VolumeId 的值保存在变量中: #!/usr/bin/env python import boto3 import json import argparse import
我正在将 MSAL 版本 1.x 更新为 MSAL-browser 的 Angular 。所以我正在尝试从版本 1.x 迁移到 2.X.I 能够成功替换代码并且工作正常。但是我遇到了 acquireT
我知道有很多关于此的问题,例如 Getting daily averages with pandas和 How get monthly mean in pandas using groupby但我遇到
This is the query string that I am receiving in URL. Output url: /demo/analysis/test?startDate=Sat+
我正在尝试使用 javascript 中的以下代码访问 Geoserver 层 var gkvrtWmsSource =new ol.source.ImageWMS({ u
API 需要一个包含授权代码的 header 。这就是我到目前为止所拥有的: var fullUrl = 'https://api.ecobee.com/1/thermostat?json=\{"s
如何获取文件中的最后一个字符,如果是某个字符,则删除它而不将整个文件加载到内存中? 这就是我目前所拥有的。 using (var fileStream = new FileStream("file.t
我是这个社区的新手,想出了我的第一个问题。 我正在使用 JSP,我成功地创建了 JSP-Sites,它正在使用jsp:setParameter 和 jsp:getParameter 具有单个字符串。
在回答 StoreStore reordering happens when compiling C++ for x86 @Peter Cordes 写过 For Acquire/Release se
我有一个函数,我们将其命名为 X1,它返回变量 Y。该函数在操作 .on("focusout", X1) 中使用。如何获取变量Y?执行.on后X1的结果? 最佳答案 您可以更改 Y 的范围以使其位于函
我是一名优秀的程序员,十分优秀!