- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
SpaCy 的文档有一些关于添加新俚语的信息 here .
但是,我想知道:
(1)什么时候调用下面的函数?
lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], NORM_EXCEPTIONS, BASE_NORMS)
spaCy的典型用法,根据介绍指南here , 是这样的:
import spacy
nlp = spacy.load('en')
# Should I call the function add_lookups(...) here?
doc = nlp(u'Apple is looking at buying U.K. startup for $1 billion')
(2) 在处理管道中什么时候处理规范异常?
我假设一个典型的管道是这样的:tokenizer -> tagger -> parser -> ner。
是否在分词器之前处理了规范异常?而且,规范异常组件相对于其他预处理组件(例如停用词、词形还原器)是如何组织的(参见组件的完整列表 here )?什么先于什么?
我是 spaCy 的新手,非常感谢您的帮助。谢谢!
最佳答案
规范异常是语言数据的一部分,属性 getter(获取文本并返回规范的函数)是用语言类初始化的,例如英语
。你可以看到这个 here 的例子.这一切都发生在管道构建之前。
这里的假设是规范异常通常是特定于语言的,因此应该在语言数据中定义,独立于处理管道。规范也是词汇属性,因此它们的 getter 依赖于底层的词素,即词汇表中上下文不敏感的条目(与标记相反,标记是上下文中的单词)。
但是,token.norm_
的优点在于它是可写的——因此您可以轻松地添加 custom pipeline component在您自己的字典中查找 token 的文本,并在必要时覆盖规范:
def add_custom_norms(doc):
for token in doc:
if token.text in YOUR_NORM_DICT:
token.norm_ = YOUR_NORM_DICT[token.text]
return doc
nlp.add_pipe(add_custom_norms, last=True)
请记住,NORM
属性也用作模型中的一个特征,因此根据您要添加或覆盖的规范,您可能只想应用您的自定义组件 在标记器、解析器或实体识别器被调用之后。
例如,默认情况下,spaCy 将所有货币符号规范化为 "$"
以确保它们都接收到相似的表示,即使其中一个在训练数据中出现频率较低。如果您的自定义组件现在用 "Euro"
覆盖 "€"
,这也会对模型的预测产生影响。因此,您可能会看到对 MONEY
实体的预测不太准确。
如果您计划训练自己的模型并将您的自定义规范考虑在内,您可能需要考虑实现自定义语言子类。或者,如果您认为默认情况下您要添加的俚语应包含在 spaCy 中,您可以随时提交 pull request ,例如英语 norm_exceptions.py
.
关于nlp - 如何将自定义俚语添加到 spaCy 的 norm_exceptions.py 模块中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49493232/
我使用的是 Windows 8.1 和 Python 2.7,我在特定文件路径中设置了所有文件(希望正确),但每当我运行 python manage.py runserver 时,我都会收到此错误。
背景: 我有一个像这样的目录结构: Package/ setup.py src/ __init__.py __main__.py cod
我从这个线程运行了一个示例代码。 How to properly use coverage.py in Python? 但是,当我执行此命令时 py.test test.py --cov=sample
IPython 0.13.1 文档说: $ ipython -h ... Usage ipython [subcommand] [options] [files] If invoked
我写了一个网站,让我困惑的是当我运行这个网站时,首先我需要启动应用程序,所以有 3 种方法: sudo python xxx.py python xxx.py xxx.py 每一个我都不清楚怎么用,目
我不确定为什么它不起作用,这可能是一个您无法解决的问题,但我只是想知道为什么它不起作用。如果我浪费了您的时间,或者没有正确地提出问题,我很抱歉,我 16 岁,对 Python 还算陌生。 在main.
鉴于以下情况:models.py from .managers import PersonManager from django.db import models class Person(model
有没有办法将参数传递给 web.py 处理程序类构造函数? 例如。这些参数可能来自命令行(当主 web.py 脚本运行时),在第一个参数(作为端口号)之后 最佳答案 当然,这取决于你的意思。毕竟都是p
我对 python/django 编程很陌生,因为我没有编程背景。我正在在线上课,我只想确切地知道 manage.py 文件的作用。我试过用谷歌搜索它,但除了在 django-admin.py 周围放
我想将类别及其子类别保存到数据库中,这里每个类别都有多个子类别。您能帮我保存与类别相对应的用户、类别和多个子类别吗?Models.py、Serializers.py、Views .py 并附加传入请求
所以我的机器人开始有很多命令,并且在 main.py 上变得有点困惑。我知道有一种方法可以将命令存储在其他文件中,然后在 discord.js 上触发它们时将它们应用于 main.py。在 disco
我正在尝试制作一个类似于 mee6 的 Discord 机器人,因为它会按特定时间间隔计算用户在我的 Discord 服务器中发送的消息。我已经在网上搜索过,但即使有类似的问题也找不到我要找的东西。例
我正在尝试制作一个机器人,它根据特定 channel 中的消息创建线程。如果有在 discord.py 中的文本 channel 中创建线程的方法,请告诉我。 最佳答案 是的,但有一个问题。 当前版本
我一直在尝试制作一个命令来显示一些信息,然后当我对表情使用react时,它应该会显示另一组信息。 我尝试使用 this 的部分内容,特别是第 335 到 393 行的部分让它工作。但是,它什么也不做。
这是我试过的代码: @client.event async def on_message(message): if client.user.mention in message.content
我试过这段代码,机器人说猜但没有回应我的猜测。 @commands.command() async def game(self, ctx): number = random.randint(0
我决定尝试让我的不和谐机器人播放音乐,但我已经卡住了。主要是因为我找不到任何资源来帮助当前版本,我一直在从文档中获取所有内容。但是,我不知道如何检查机器人是否已连接到语音 channel 。 我试过
我在一个目录中有三个文件: # Untitled-1.py print("UTITLEDPY") if __name__== "__main__": from telegram.ext imp
我对 python 相当陌生,并且一直只使用 Jupyter Notebooks。当我需要运行我已保存在计算机中某处的 .py 文件时,我通常所做的就是使用魔术命令 %run %run '/home/
我有 Django 1.4 和 Python 2.6.6当我使用“django-amdin.py startproject djproject”时,请按照网页中的步骤操作 https://www.ib
我是一名优秀的程序员,十分优秀!