python - 斯坦福 NER 标注器 NLTK(python)与 JAVA 的结果差异-6ren

python - 斯坦福 NER 标注器 NLTK(python)与 JAVA 的结果差异

转载作者：太空狗更新时间：2023-10-30 00:02:10

25

4

我同时使用 python 和 java 来运行 Stanford NER 标记器，但我看到了结果的差异。

例如，当我输入“Involved in all aspects of data modeling using ERwin as the primary software for this.”这句话时，

Java 结果:

"ERwin": "PERSON"

Python 结果:

In [6]: NERTagger.tag("Involved in all aspects of data modeling using ERwin as the primary software for this.".split())
Out [6]:[(u'Involved', u'O'),
 (u'in', u'O'),
 (u'all', u'O'),
 (u'aspects', u'O'),
 (u'of', u'O'),
 (u'data', u'O'),
 (u'modeling', u'O'),
 (u'using', u'O'),
 (u'ERwin', u'O'),
 (u'as', u'O'),
 (u'the', u'O'),
 (u'primary', u'O'),
 (u'software', u'O'),
 (u'for', u'O'),
 (u'this.', u'O')]

Python nltk 包装器无法将“ERwin”捕获为 PERSON。

这里有趣的是 Python 和 Java 都使用 2015-04-20 发布的相同训练数据 (english.all.3class.caseless.distsim.crf.ser.gz)。

我的最终目标是让 Python 像 Java 一样工作。

我正在查看 nltk.tag 中的 StanfordNERTagger，看看是否有任何我可以修改的地方。下面是封装代码:

class StanfordNERTagger(StanfordTagger):
"""
A class for Named-Entity Tagging with Stanford Tagger. The input is the paths to:

- a model trained on training data
- (optionally) the path to the stanford tagger jar file. If not specified here,
  then this jar file must be specified in the CLASSPATH envinroment variable.
- (optionally) the encoding of the training data (default: UTF-8)

Example:

    >>> from nltk.tag import StanfordNERTagger
    >>> st = StanfordNERTagger('english.all.3class.distsim.crf.ser.gz') # doctest: +SKIP
    >>> st.tag('Rami Eid is studying at Stony Brook University in NY'.split()) # doctest: +SKIP
    [('Rami', 'PERSON'), ('Eid', 'PERSON'), ('is', 'O'), ('studying', 'O'),
     ('at', 'O'), ('Stony', 'ORGANIZATION'), ('Brook', 'ORGANIZATION'),
     ('University', 'ORGANIZATION'), ('in', 'O'), ('NY', 'LOCATION')]
"""

_SEPARATOR = '/'
_JAR = 'stanford-ner.jar'
_FORMAT = 'slashTags'

def __init__(self, *args, **kwargs):
    super(StanfordNERTagger, self).__init__(*args, **kwargs)

@property
def _cmd(self):
    # Adding -tokenizerFactory edu.stanford.nlp.process.WhitespaceTokenizer -tokenizerOptions tokenizeNLs=false for not using stanford Tokenizer  
    return ['edu.stanford.nlp.ie.crf.CRFClassifier',
            '-loadClassifier', self._stanford_model, '-textFile',
            self._input_file_path, '-outputFormat', self._FORMAT, '-tokenizerFactory', 'edu.stanford.nlp.process.WhitespaceTokenizer', '-tokenizerOptions','\"tokenizeNLs=false\"']

def parse_output(self, text, sentences):
    if self._FORMAT == 'slashTags':
        # Joint together to a big list    
        tagged_sentences = []
        for tagged_sentence in text.strip().split("\n"):
            for tagged_word in tagged_sentence.strip().split():
                word_tags = tagged_word.strip().split(self._SEPARATOR)
                tagged_sentences.append((''.join(word_tags[:-1]), word_tags[-1]))

        # Separate it according to the input
        result = []
        start = 0 
        for sent in sentences:
            result.append(tagged_sentences[start:start + len(sent)])
            start += len(sent);
        return result 

    raise NotImplementedError

或者，如果是因为使用不同的分类器(在 java 代码中，它似乎使用 AbstractSequenceClassifier，另一方面，python nltk 包装器使用 CRFClassifier。)有没有办法在 python 包装器中使用 AbstractSequenceClassifier？

最佳答案

尝试在 CoreNLP 的属性文件(或命令行)中将 maxAdditionalKnownLCWords 设置为 0，如果可能，也将 NLTK 设置为 0。这会禁用允许 NER 系统从测试时间数据中学习一点点的选项，这可能会导致偶尔出现轻微不同的结果。

关于python - 斯坦福 NER 标注器 NLTK(python)与 JAVA 的结果差异，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34626555/

25

4

0

文章推荐： c# - 理解 C# 中的静态

文章推荐： c# - System.Reflection.TargetInvocationException；需要帮助理解

python - spaCy v3 基于现有模型训练 NER 或将自定义训练的 NER 添加到现有模型
在 spaCy < 3.0 中，我能够在经过训练的 en_core_web_sm 模型中训练 NER 组件: python -m spacy train en model training valid
python - 为什么 CoreNLP ner tagger 和 ner tagger 将分开的数字连接在一起？
代码片段如下: In [390]: t Out[390]: ['my', 'phone', 'number', 'is', '1111', '1111', '1111'] In [391]: ner_
stanford-nlp - nltk stanford ner tagger 和 stanford ner tagger 在线演示之间的不一致
我正在使用 python 的内置库 nltk 来获取 stanford ner tagger api 设置，但我发现此 api 的单词标记与 stanford 的 ner tagger 网站上的在线演
pytorch - CUDA 运行时错误 : Which Cuda version is compatible to run NER task using BERT-NER
我已经在我的 VM 上设置了所有安装的需求包，但我发现没有安装 nvidia GPU 驱动程序，在需求中没有 nvidia GPU 驱动程序安装说明，我想知道哪个 cuda 版本和它兼容的 nvidi
java - Stanford Core NLP ner 4.0.0错误: Could not find or load main class stanford-ner.jar;lib.*
我正在尝试使用Stanford CoreNLP训练NER模型，但是找不到主类。我已经在我的CLASSPATH中包含了jar文件的路径，但仍然找不到它们。有什么办法解决这个问题吗？ C:\ Users
nlp - NER 语料库的带注释训练数据
在 opennlp 的文档中提到，我们必须用 15000 行来训练我们的模型以获得良好的性能。现在，我必须从文档中提取不同的实体，这意味着我必须为训练数据(15000 行)中的许多标记添加不同的标签
python - 多种语言的名称实体识别 (NER)
我正在编写一些代码来执行命名实体识别 (NER)，这对于英文文本来说效果很好。但是，我希望能够将 NER 应用于任何语言。为此，我想 1) 识别文本的语言，然后 2) 将 NER 应用于识别的语言。对
python - NER 训练循环中的损失不会在空间中减少
我正在尝试训练一种新的实体类型“HE INST”——以识别大学。那是唯一的新标签。我有一个很长的文档作为原始文本。我在其上运行 NER 并将实体保存到 TRAIN DATA 中，然后将新实体标签添加
nlp - 共指解析是否需要 NER？
...或者性别信息就足够了吗？更具体地说，我有兴趣知道是否可以减少斯坦福核心 NLP 加载的模型数量以提取共指。我对实际的命名实体识别不感兴趣。谢谢最佳答案根据描述使用斯坦福 CoreNLP 打
nlp - NER 使用什么模型来查找简历中的人名？
我刚刚开始使用斯坦福 CoreNLP，我想构建一个自定义 NER 模型来查找人员。不幸的是，我没有找到一个好的意大利语ner模型。我需要在简历/简历文档中找到这些实体。这里的问题是像这样的文档可以
python - 如何用Python定制Stanford NER？
我从这里学会了如何用 Java 定制斯坦福 NER(命名实体识别器): http://nlp.stanford.edu/software/crf-faq.shtml#a 但是我正在使用 Python
text - 基于机器学习的领域特定命名实体识别 (NER)？
我需要构建一个识别特定域中的 NE 的分类器。例如，如果我的域是曲棍球或足球，分类器应该接受该域中的 NE，但不接受它在网页上看到的所有代词。我的最终目标是通过 NER 改进文本分类。对于从事该领域
nlp - 聚焦命名实体识别(NER)？
我想识别特定领域(例如棒球)中的命名实体。我知道有一些可用的工具，如斯坦福NER、LingPipe、AlchemyAPI，我已经用它们做了一些测试。但正如我之前提到的，我希望它们是针对特定领域的。这怎
python - 用于识别产品的自定义 NER
我正在尝试构建一个用于产品名称及其型号的自定义命名实体提取器。我的用例包含如下句子:“微软使用了产品 ABC-300 并将其与 ASQ 集成”。上句提到的产品是:ABC-300和ASQ 我已经尝试过
python - NER 朴素算法
我从来没有真正处理过 NLP，但对 NER 有一个想法，它不应该起作用，但在某种情况下却做得非常好。我不明白它为什么起作用，为什么不起作用或天气可以延长。我们的想法是通过以下方式提取故事中主要人物的
python - NER 标记器的替代品用于长的、异构的短语？
我正在寻找关于以下问题的想法/想法: 我正在处理食品成分数据，例如:牛奶、糖、鸡蛋、面粉，可能含有坚果我希望能够从这样的文本中识别和提取像可能包含坚果这样的短语，以分别对其进行预处理这类短语在长度
python - 使用位移可视化 NER 训练数据和实体
我已经创建了一个用于训练 NER 数据的数据集。创建后，我想在应用于训练管道之前测试实体和数据是否匹配。使用位移我们可以以更好的方式可视化。但是如何在 spacy 3 中完成。最佳答案上面问题的代
nltk - 我们如何使用使用自定义数据集训练斯坦福 NER 标记器后生成的输出文件？
执行此 Stanford NLP FAQ 中的步骤后，我能够生成模型的 zip 文件。但在文档中，他们使用 TSV 文件来计算针对已注释文件的预测准确性，但没有任何文档说明如何针对新文件对其进行测试!
nlp - 斯坦福 NER 小写实体
我在检测以小写字母开头的命名实体时遇到问题。如果我只用小写单词训练模型，那么准确率是合理的；但是，当模型使用完全大写的标记或什至是小写和大写混合训练时，结果非常糟糕。我尝试了斯坦福 NLP 小组提供的
nlp - 是否可以训练斯坦福 NER 系统识别更多命名实体类型？
我现在正在使用一些 NLP 库，(stanford 和 nltk) 斯坦福我看到了演示部分，但只是想问问是否可以用它来识别更多的实体类型。因此，目前斯坦福 NER 系统(如演示所示)可以将实体识别为

首页

博学

6Ren·AI

商城

python - 斯坦福 NER 标注器 NLTK(python)与 JAVA 的结果差异