- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我的关键字都以小写形式存储,例如“discount nike shoes”,我正在尝试对其执行实体提取。我遇到的问题是,当涉及到 NER 时,spaCy 似乎区分大小写。请注意,我不认为这是 spaCy 特有的。
当我跑...
doc = nlp(u"i love nike shoes from the uk")
for ent in doc.ents:
print(ent.text, ent.start_char, ent.end_char, ent.label_)
...什么都没有返回。
当我跑...
doc = nlp(u"i love Nike shoes from the Uk")
for ent in doc.ents:
print(ent.text, ent.start_char, ent.end_char, ent.label_)
我得到以下结果...
Nike 7 11 ORG
Uk 25 27 GPE
我应该把所有的东西都用标题大小写吗?我可以使用其他解决方法吗?
最佳答案
spaCy 的 pre-trained statistical models接受了大量一般新闻和网络文本的训练。这意味着实体识别器可能只看到非常少的全小写示例,因为在这些类型的文本中这种情况要少得多。在英语中,大写也是命名实体的有力指标(与德语不同,所有名词通常都大写),因此该模型可能更关注这一点。
如果您正在处理没有正确大写的文本,您可能需要微调模型以降低此处的敏感度。请参阅 updating the named entity recognizer 上的文档了解更多详情和代码示例。
希望生成训练示例不会很困难,因为您可以使用现有的注释和数据集,或者使用预训练模型创建一个,然后将所有内容小写。例如,您可以使用适当大写的文本,在其上运行模型并提取文本中的所有实体范围。接下来,将所有文本小写,并使用新数据更新模型。确保在文本中混合使用适当的大写字母,因为您不希望模型学习“现在一切都是小写字母!大写字母不再存在!”之类的东西。
顺便说一句,如果您有可以使用列表或规则集定义的实体,您可能还想查看 EntityRuler
component .它可以与统计实体识别器结合使用,让您传入完全匹配的字典或不区分大小写的抽象标记模式。例如,[{"lower": "nike"}]
将匹配一个小写形式为“nike”的标记——因此“NIKE”、“Nike”、“nike”、“NiKe”等.
关于python - 区分大小写的实体识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56384231/
不确定是否可能,但只是想知道 CSS 中是否有一种方法来区分两种浏览器,即 IE6 和 IE8,因为我有一个我需要应用的样式,但 IE6 和 IE8 的值需要不同,即 ul.sf-menu li li
我正在为 C 库编写 C++ 抽象。 C 库有几个用于标识远程资源的 ID 的类型定义: typedef int color_id; typedef int smell_id; typedef int
有谁知道当以编程方式遍历 Word 文档时,您可以判断一个段落是否构成目录的一部分(或者实际上,构成字段一部分的任何其他内容)。 我提出这个问题的原因是我有一个 VB 程序,它应该从文档中提取前几段实
假设我的数据集包含三列:id(标识)、case(字符)和 value(数字)。这是我的数据集: tdata <- data.frame(id=c(1,1,1,1,2,2,2,2,3,3,3,3,4,4
我在解释 gcc (4.8.2) 警告和错误时遇到问题。更准确地说,很难分辨一个问题在哪里结束,另一个问题从哪里开始。我只能通过控制台访问构建机器,因此不能选择使用 IDE。 我真的需要能够快速区分个
我想创建一个泛型类型,它只从类定义中选择修饰的方法。 function test(ctor: any, methodName: any) {} class A { @test publ
是否有规范的 base-R 方法来确定函数参数是否是对象名称而不是文字/表达式? 虽然通常不鼓励使用 NSE,但偶尔会有人有一个好主意并想使用它。 data.frame 是我认为“方便”的最简单用例:
我已经实现了 didSelectRowAtIndexPath 和accessoryButtonTappedForRowWithIndexPath 似乎永远不会触发。但是,didSelectRowAtI
我需要确定数据框中的哪些列是小数,哪些是字符串。 使用 df.dtypes 为两种列类型提供“对象”: import pandas as pd import decimal data = {'dec1
有没有办法在 Vim 中区分隐藏缓冲区和事件缓冲区? 我需要确定窗口中的缓冲区是否处于事件状态,以便可以切换它。 尝试了 bufloaded、bufexists 和 buflisted,但它们对于事件
在 JavaScript 中区分事件的最佳方法是什么。 实际上有两点我感兴趣。第一点是事件中是否有类似 id 的东西(这对于调试目的非常有用)。另一点是有更好的方法来区分 mousedown 和 mo
我有一个 php 页面,里面有多个表单。 "> "> " value=""> " value=""> 这些表单是通过循环遍历 MySQL 上的所有数据而生成的。每个表单和输入都
Pony 有一个未参数化的异常值。 不幸的是,我经常有一些代码想要抛出不同类型的异常,并且我需要知道它们是什么,以便正确处理它们——例如,简单地说,当停止程序时,向用户提供以下信息很重要正确的错误消息
出于对所有神圣事物的热爱,您如何区分预定义的 .NET 异常类中的不同“异常风格”? 例如,一段代码可能会抛出 XmlException在以下条件下: 文档的根元素为NULL 文档中的字符无效 文档太
正如您在下面看到的,我创建了一个 JComboBox,其中“选项”数组中的元素作为列表中的选项。 当选择列表中的特定项目时,我想显示 JLabels“一个”或“两个”。例如。选择选项一显示“一”,选择
我有一个表,其中包含四列用户名、产品名称、产品价格和一个名为 item_paid 的 boolean 列。相同的产品名称可以作为重复条目插入到表中。但是有没有办法区分一行和重复行?或者我应该创建一个名
是否可以使用反射来区分仅 getter 属性和表达式主体属性? class MyClass { DateTime GetterOnly { get; } DateTime Expres
我即将为一个学校项目制作一个小程序,该程序应该能够识别通过 MIDI 钢琴输入演奏的和弦(这只是其中的一部分)。 目前为止,每次按下和每次释放 MIDI 键盘上的某个键,我都会得到一个 ShortMe
我正在使用“自动”反序列化器从 Kafka 消费 Avro 序列化消息,例如: props.put( ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFI
我需要从两个表中检索数据。第一个是事件列表,第二个是 field 列表。 我在两个表中都有一个同名的字段:events.venue(这是一个 ID),venues.venue 是地点的名称,比如“bl
我是一名优秀的程序员,十分优秀!