java - 如何通过 CoreNLP 识别小写的命名实体，例如 kobe bryant？-6ren

java - 如何通过 CoreNLP 识别小写的命名实体，例如 kobe bryant？

转载作者：行者123 更新时间：2023-12-03 18:49:08

25

4

我遇到一个问题，CoreNLP 只能识别以大写字符开头的命名实体，例如 Kobe Bryant，但不能将 kobe bryant 识别为一个人!!!那么 CoreNLP 如何识别以小写字符开头的命名实体？？？？欣赏它!!!!

最佳答案

首先，您必须承认，在小写或大小写不一致的英文文本中，比在正式文本中更难正确命名实体，而在正式文本中，大写字母是一个很好的线索。 (这也是中文 NER 比英文 NER 更难的原因之一。)尽管如此，您必须做一些事情才能让 CoreNLP 在处理小写文本时表现得相当好——默认模型经过训练可以在编辑良好的文本上很好地工作。

如果您使用的是正确编辑的文本，您应该使用我们的默认英文模型。如果您正在使用的文本(主要)是小写或大写，那么您应该使用下面提供的两种解决方案之一。如果它是一个真正的混合体(就像许多社交媒体文本)，您可以使用下面的 truecaser 解决方案，或者您可以通过使用 both 大小写和无大小写 NER 模型(作为给定的一长串模型) ner.model 属性)。

方法 1:无大小写模型。我们还提供忽略大小写信息的英语模型。它们在所有小写文本上的效果会更好。

方法 2:使用 truecaser。我们提供了一个 truecase 注释器，它会尝试将文本转换为经过正式编辑的大写字母。您可以先应用它，然后再使用常规注释器。

一般来说，我们不清楚这些方法中的一种是否通常或总是获胜。您可以同时尝试两者。

重要提示:要使用下面调用的额外组件，您需要下载 the English models jar ，并使其在您的类路径中可用。

这是一个例子。我们从示例文本开始:

% cat lakers.txt
lonzo ball talked about kobe bryant after the lakers game.

在默认模型中，没有找到任何实体，它们的所有词都只有一个共同的名词标签。伤心!

% java edu.stanford.nlp.pipeline.StanfordCoreNLP -file lakers.txt -outputFormat conll -annotators tokenize,ssplit,pos,lemma,ner
% cat lakers.txt.conll 
1   lonzo   lonzo   NN  O   _   _
2   ball    ball    NN  O   _   _
3   talked  talk    VBD O   _   _
4   about   about   IN  O   _   _
5   kobe    kobe    NN  O   _   _
6   bryant  bryant  NN  O   _   _
7   after   after   IN  O   _   _
8   the the DT  O   _   _
9   lakers  laker   NNS O   _   _
10  game    game    NN  O   _   _
11  .   .   .   O   _   _

下面，我们要求使用无大小写模型，然后我们做得很好:现在所有的名字词都被识别为专有名词，并且两个人名都被识别了。但是队名还是记不住。

% java edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat conll -annotators tokenize,ssplit,pos,lemma,ner -file lakers.txt -pos.model edu/stanford/nlp/models/pos-tagger/english-caseless-left3words-distsim.tagger -ner.model edu/stanford/nlp/models/ner/english.all.3class.caseless.distsim.crf.ser.gz,edu/stanford/nlp/models/ner/english.muc.7class.caseless.distsim.crf.ser.gz,edu/stanford/nlp/models/ner/english.conll.4class.caseless.distsim.crf.ser.gz
% cat lakers.txt.conll 
1   lonzo   lonzo   NNP PERSON  _   _
2   ball    ball    NNP PERSON  _   _
3   talked  talk    VBD O   _   _
4   about   about   IN  O   _   _
5   kobe    kobe    NNP PERSON  _   _
6   bryant  bryant  NNP PERSON  _   _
7   after   after   IN  O   _   _
8   the the DT  O   _   _
9   lakers  lakers  NNPS    O   _   _
10  game    game    NN  O   _   _
11  .   .   .   O   _   _

相反，您可以在 POS 标记和 NER 之前运行 truecasing:

% java edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat conll -annotators tokenize,ssplit,truecase,pos,lemma,ner -file lakers.txt -truecase.overwriteText
% cat lakers.txt.conll 
1   Lonzo   Lonzo   NNP PERSON  _   _
2   ball    ball    NN  O   _   _
3   talked  talk    VBD O   _   _
4   about   about   IN  O   _   _
5   Kobe    Kobe    NNP PERSON  _   _
6   Bryant  Bryant  NNP PERSON  _   _
7   after   after   IN  O   _   _
8   the the DT  O   _   _
9   Lakers  Lakers  NNPS    ORGANIZATION    _   _
10  game    game    NN  O   _   _
11  .   .   .   O   _   _

现在，组织 Lakers 得到认可，一般来说，几乎所有的实体词都被标记为具有正确实体标签的专有名词，但未能获得 ball , 这仍然是一个普通名词。当然，在无大小写的文本中，这是一个很难正确使用的词，因为 ball 是一个非常常见的普通名词。

关于java - 如何通过 CoreNLP 识别小写的命名实体，例如 kobe bryant？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45097507/

25

4

0

文章推荐： java 如何在达到最大数量时停止

文章推荐： java - Backpressure 是如何在 RxJava 内部发生的

文章推荐： r - 如何将列重写(复制)到现有的SQLite数据库中

文章推荐： java - 需要找到航类号的正则表达式

c# - 为什么这不起作用？实体.CurHP - 实体.RIntDamage
都是整数，但一直报错 "Only assignment, call, increment, decrement, await, and new object expressions can be us
c# - 选择具有所有给定标签的 EF 实体(其中标签是 EF 实体)
我有以下情况:一个“对话”实体/表，它有多个关联的标签。Tag 也是一个实体/表 - key/id 是 tagName(一个字符串)。在客户端 (javascript)，我在处理标签时使用字符串数组
java - 是否有基于 hibernate 实体 XML 生成 java 源代码(实体)类的 Maven 插件？
我想通过 maven java 源代码生成器自动生成 java 源代码。我想通过查看一个大实体 xml 文件来创建实体类，该文件将包含系统中的所有实体和实体关系。据我搜索，目前maven中没有这样的插
java - EJB 2.1 实体 bean 与 EJB 3.0 实体 bean
我有一段时间有这个疑问，有人说 EJB 3.0 中没有所谓的实体 bean。有没有可能这样说，EJB 3.0 使用 JPA 来持久化数据并且没有对以前版本(EJB 2.1)中的实体 bean 进行增强
ios - Swift 3 核心数据 - 实体(上下文 :) vs Entity(entity: Location. 实体()，insertInto:上下文)
我观看了关于 Core Data 的 2016 WWDC 视频并查看了各种教程。我见过使用 Core Data Framework 创建对象以持久保存到 managedObjectContext 中的
07、DTD 实体
实体(entites) 用于定义引用普通文本或特殊字符的快捷方式的变量，可在内部或外部进行声明实体引用是对实体的引用声明一个内部实体语法： <!ENTITY 实体名称 "
java - hibernate !实体
This page建议 !ENTITY: If you want to avoid duplication, consider using XML entities (for example, [ ]
entity - 差异聚合根/实体
我正在努力解决这个问题:如何判断一个概念是聚合根还是只是一个实体(属于 AR 的一部分)？ : 他们都有 ID 它们都是由实体或值对象组成也许如果我需要引用其他 AR 中的实体，那么我需要将其设为
没有关系的 Symfony 实体
我使用 Symfony2 和 Doctrine，我有一个关于实体的问题。出于性能方面的考虑，我想知道是否可以在不进行所有关联的情况下使用实体？目前，我还没有找到另一种方法来创建继承带有关联的类的模
附加文件符号的 HTML 实体？
我已经尝试在 HTML 中包含以下代码，用于附加文件符号。但它显示一个空的白框。 📎 📎 📎 是否有替代的 HTML 附加文件符号实体？如果没有，我们可以手动创建
没有持久化的 Grails 实体
我在 grails 中有一个域类......我如何让 gorm 在创建数据库时忽略这个实体？就别管它了。最佳答案如果我理解，你不想从域类创建表？如果是，请在域类中使用此代码: static map
entity - 差异聚合根/实体
我正在努力解决这个问题:如何判断一个概念是聚合根还是只是一个实体(属于 AR 的一部分)？ : 他们都有 ID 它们都是由实体或值对象组成也许如果我需要引用其他 AR 中的实体，那么我需要将其设为
附加文件符号的 HTML 实体？
我已经尝试在 HTML 中包含以下代码，用于附加文件符号。但它显示一个空的白框。 📎 📎 📎 是否有替代的 HTML 附加文件符号实体？如果没有，我们可以手动创建
Java 实体 - 存储日期
如何在我的实体中以 14-04-2017 格式存储日期？但我必须从字符串中解析它。 SimpleDateFormat dateFormat = new SimpleDateFormat("yyyy-
c# - 实体 - 两个连接表是什么类型
我需要从两个连接表中获取数据。数据集是什么类型？我是否需要创建一个包含这两个表中的属性的类以用于数据集类型，或者我可以使用实体模式中的类型。我如何修改我的方法才能正常工作？ public static
php - Cakephp3将多个Mysql表标准化为1个模型表/实体
好的，我们正在尝试建立一个中央站点来查看来自销售我们产品的多个供应商的数据。这些多个供应商使用不同的销售系统(确切地说是两个不同的系统)，因此每个数据库看起来完全不同。我们与他们的数据库同步，因此数据
javascript - Backbone 实体
我是 backbone 的新手。但是当我研究模型实体时，我不明白一些事情。如果我们可以像 java 或 C# 这样的标准语言一样定义模型属性，那就太好了。有没有可能是这样的。所以我的想法是这样的: M
Android - 在可绘制对象中获取形状颜色/实体
我想获取存储在可绘制的 xml 文件中的形状的颜色。我来到了将 Drawable 存储在 Drawable 变量中的步骤，所以，现在我想获取形状的颜色(纯色标签)。有什么建议吗？最佳答案 Gra
java - 实体、服务类和命令对象的最佳实践问题
实体是直接映射到我们的数据库(我们用于 Hibernate)的类。在调用 DAO 之前，我们的服务类包含这些实体的业务逻辑。我们还有命令对象，它们是与特定 View 相关的 POJO。有人告诉我实
C# 函数返回通用对象/实体
在我的应用程序中，我需要显示不同存储过程返回的记录列表。每个存储过程返回不同类型的记录(即列数和列类型不同)。我最初的想法是为每种类型的记录创建一个类，并创建一个函数来执行相应的存储过程并返回 Li

首页

博学

6Ren·AI

商城

java - 如何通过 CoreNLP 识别小写的命名实体，例如 kobe bryant？