python - 如何用Python定制Stanford NER？-6ren

python - 如何用Python定制Stanford NER？

转载作者：行者123 更新时间：2023-11-30 22:43:38

33

4

我从这里学会了如何用 Java 定制斯坦福 NER(命名实体识别器):

http://nlp.stanford.edu/software/crf-faq.shtml#a

但是我正在使用 Python 开发我的项目，在这里我需要使用一些自定义实体来训练我的分类器。

我搜索了很多解决方案，但找不到任何解决方案。任何想法？如果不可能，是否有其他方法可以使用自定义实体(即使用 nltk 或 python 中的其他实体)训练我的分类器？

编辑:添加代码这就是我为设置和测试斯坦福 NER 所做的工作，效果很好:

from nltk.tag.stanford import StanfordNERTagger
path_to_model = "C:\..\stanford-ner-2016-10-31\classifiers\english.all.3class.distsim.crf.ser"
path_to_jar = "C:\..\stanford-ner-2016-10-31\stanford-ner.jar"
nertagger=StanfordNERTagger(path_to_model, path_to_jar)
query="Show  me the best eye doctor in Munich"
print(nertagger.tag(query.split()))

此代码成功运行。然后，我下载了示例 austen.prop 文件以及 jane-austen-emma-ch1.tsv 和 jane-austen-emma-ch2.tsv 文件，并将其放入 NerTragger 库文件夹中的自定义文件夹中。我使用自定义实体标签修改了 jane-austen-emma-ch1.tsv 文件。 austen.prop 文件的代码链接到 jane-austen-emma-ch1.tsv 文件。现在，我将上面的代码修改如下，但它不起作用:

from nltk.tag.stanford import StanfordNERTagger
path_to_model = "C:\..\stanford-ner-2016-10-31\custom/austen.prop"
path_to_jar = "C:\..\stanford-ner-2016-10-31\stanford-ner.jar"
nertagger=StanfordNERTagger(path_to_model, path_to_jar)
query="Show  me the best eye doctor in Munich"
print(nertagger.tag(query.split()))

但是此代码会产生以下错误:

Exception in thread "main" edu.stanford.nlp.io.RuntimeIOException: java.io.StreamCorruptedException: invalid stream header: 236C6F63
    raise OSError('Java command failed : ' + str(cmd))
    at edu.stanford.nlp.ie.AbstractSequenceClassifier.loadClassifierNoExceptions(AbstractSequenceClassifier.java:1507)
    at edu.stanford.nlp.ie.crf.CRFClassifier.main(CRFClassifier.java:3017)
Caused by: java.io.StreamCorruptedException: invalid stream header: 236C6F63
OSError: Java command failed : ['C:\\Program Files\\Java\\jdk1.8.0_111\\bin\\java.exe', '-mx1000m', '-cp', 'C:/Users/HP/Desktop/Downloads1/Compressed/stanford-ner-2016-10-31/stanford-ner-2016-10-31\\stanford-ner-3.7.0-javadoc.jar;C:/Users/HP/Desktop/Downloads1/Compressed/stanford-ner-2016-10-31/stanford-ner-2016-10-31\\stanford-ner-3.7.0-sources.jar;C:/Users/HP/Desktop/Downloads1/Compressed/stanford-ner-2016-10-31/stanford-ner-2016-10-31\\stanford-ner-3.7.0.jar;C:/Users/HP/Desktop/Downloads1/Compressed/stanford-ner-2016-10-31/stanford-ner-2016-10-31\\stanford-ner.jar;C:/Users/HP/Desktop/Downloads1/Compressed/stanford-ner-2016-10-31/stanford-ner-2016-10-31\\lib\\joda-time.jar;C:/Users/HP/Desktop/Downloads1/Compressed/stanford-ner-2016-10-31/stanford-ner-2016-10-31\\lib\\jollyday-0.4.9.jar;C:/Users/HP/Desktop/Downloads1/Compressed/stanford-ner-2016-10-31/stanford-ner-2016-10-31\\lib\\stanford-ner-resources.jar', 'edu.stanford.nlp.ie.crf.CRFClassifier', '-loadClassifier', 'C:/Users/HP/Desktop/Downloads1/Compressed/stanford-ner-2016-10-31/stanford-ner-2016-10-31/custom/austen.prop', '-textFile', 'C:\\Users\\HP\\AppData\\Local\\Temp\\tmppk8_741f', '-outputFormat', 'slashTags', '-tokenizerFactory', 'edu.stanford.nlp.process.WhitespaceTokenizer', '-tokenizerOptions', '"tokenizeNLs=false"', '-encoding', 'utf8']
    at java.io.ObjectInputStream.readStreamHeader(ObjectInputStream.java:808)
    at java.io.ObjectInputStream.<init>(ObjectInputStream.java:301)
    at edu.stanford.nlp.ie.AbstractSequenceClassifier.loadClassifier(AbstractSequenceClassifier.java:1462)
    at edu.stanford.nlp.ie.AbstractSequenceClassifier.loadClassifier(AbstractSequenceClassifier.java:1494)
    at edu.stanford.nlp.ie.AbstractSequenceClassifier.loadClassifierNoExceptions(AbstractSequenceClassifier.java:1505)
    ... 1 more

最佳答案

斯坦福 NER 分类器是一个 java 程序。 NLTK 的模块只是 java 可执行文件的接口(interface)。因此，您可以像以前一样训练模型(或者像您在提供的链接中看到的那样)。

在您的代码中，您混淆了模型的训练和用于分块新文本的情况。 .prop文件包含训练新模型的指令；它本身不是一个模型。这是我的建议:

暂时忘记 python/nltk，从 Windows 命令行(CMD 提示符或其他方式)训练一个新模型:按照问题中提到的操作方法生成序列化模型 ( .ser文件)命名为 ner-model.ser.gz 或您决定从 .prop 文件中调用它的任何名称。
在您的 Python 代码中，将 path_to_model 变量设置为指向您在步骤 1 中生成的 .ser 文件。

如果您确实想从 python 控制训练过程，您可以使用 subprocess 模块发出适当的命令行命令。但听起来你并不真正需要这个；只需尝试了解这些步骤的作用，以便您可以正确执行它们。

关于python - 如何用Python定制Stanford NER？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41722217/

33

4

0

文章推荐： php - 两张表SQL双连接？

文章推荐： c# - 将 selenium Nunit 测试迁移到 MBunit 以并行执行

文章推荐：当一个表的行必须附加到结果中的列时，MySQL JOIN

文章推荐： java - OSGi 环境中的 MySQL 连接器 (Gradle) : NoClassDefFoundError

stanford-nlp - Stanford Parser的标签
我刚开始使用Stanford Parser，但我不太了解这些标签。这可能是一个愚蠢的问题，但是谁能告诉我SBARQ和SQ标签代表什么，在哪里可以找到它们的完整列表？我知道Penn Treebank的样
stanford-nlp - nltk stanford ner tagger 和 stanford ner tagger 在线演示之间的不一致
我正在使用 python 的内置库 nltk 来获取 stanford ner tagger api 设置，但我发现此 api 的单词标记与 stanford 的 ner tagger 网站上的在线演
stanford-nlp - 初始堆错误太小 - stanford parser
我正在尝试使用斯坦福依赖解析器。我尝试从 Windows 上的命令行运行解析器以使用以下命令提取依赖项: java -mx100m -cp "stanford-parser.jar" edu.stan
stanford-nlp - Stanford CoreNLP BasicPipelineExample 不起作用
我正在尝试开始使用 Stanford CoreNLP，甚至无法通过这里的第一个简单示例。 https://stanfordnlp.github.io/CoreNLP/api.html 这是我的代码:
stanford-nlp - 用 stanford-nlp 分块一些文本
我正在使用 stanford 核心 NLP，并使用这一行来加载一些模块来处理我的文本: props.put("annotators", "tokenize, ssplit, pos, lemma, n
stanford-nlp - Stanford Core NLP 是否支持德语词形还原？
我找到了与 Stanford Core NLP 兼容的德语解析和 pos-tag 模型。但是我无法使德语词形还原工作。有办法吗？最佳答案抱歉，据我所知，Stanford CoreNLP 不存在德语
stanford-nlp - 是否可以选择从 Stanford Parser 获取每个句子的处理时间？
我目前正在使用以下命令解析阿拉伯文本: java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser \ -cp "$scri
stanford-nlp - 为什么 stanford corenlp 性别识别是不确定的？
我有以下结果，如您所见，爱德华这个名字有不同的结果(null 和 male)。这发生在几个名字上。 edward, Gender: null james, Gender: MALE karla, Ge
stanford-nlp - 如何基于 stanford-nlp 条件随机场模型训练法国 NER？
我发现了 stanford-NLP 的工具，发现它真的很有趣。我是一名法国数据挖掘者/数据科学家，喜欢文本分析，并且很想使用您的工具，但是 NER 在法语中不可用，这让我感到非常困惑。我很想制作我
c++ - linux 上的 Stanford Stanford C++ 库
我正在使用 Suse Linux 13.1 并自学斯坦福大学的 CS 106b 类(class)。我在这里找到了压缩库 http://www.stanford.edu/class/cs106b/hom
nlp - 如何使用 Stanford Parser 或 Stanford CoreNLP 找到名词短语的语法关系
我正在使用 stanford CoreNLP 来尝试查找名词短语的语法关系。这是一个例子: 给定“The fitness room was dirty”这句话。我成功地将“The fitness
stanford-nlp - 格式化 Stanford Corenlp 的 NER 输出
我正在使用 Stanford CoreNLP 并将其用于 NER。但是当我提取组织名称时，我看到每个词都标有注释。因此，如果实体是“纽约时报”，那么它将被记录为三个不同的实体:“NEW”、“YORK”
stanford-nlp - stanford corenlp 3.3.1 语言支持
我开始使用 coreNLP 库 3.3.1 来分析意大利文本文档。有没有人尝试过使用英语以外的语言？您是否找到了训练算法所需的模型？谢谢卡罗最佳答案目前，除了英语，我们只为中文打包模型(见 h
stanford-nlp - 使用 Core NLP 和 Stanford Parser 执行词性标注的结果不同？
斯坦福解析器和斯坦福 CoreNlp 的词性 (POS) 模型用途不同，这就是为什么通过 Stanford Parser 和 CoreNlp 执行的 POS 标记的输出存在差异。在线核心 NLP 输
java - Stanford-CoreNLP 和 Stanford-Parser 中的 Maven 类名冲突
我的 (maven) 项目依赖于 stanford-CoreNLP 和 stanford-Parser，显然每个依赖项的(词汇化)解析器产生不同的输出，它们并不相同。我的问题是如何确定应该从哪个包加
c# - Stanford CoreNLP 创建 edu.stanford.nlp.time.TimeExpressionExtractorImpl 时出错
我正在尝试学习 Stanford CoreNLP 库。我在发布的示例 ( https://sergeytihon.wordpress.com/2013/10/26/stanford-corenlp-i
java - 无法在 .\stanford-corenlp-4.0.0 找到 stanford-parser\.jar jar 文件
我是 nltk 的新手，似乎正在遵循过时的教程来开始使用 nltk 中的 StanleyDependencyParser。我已经从https://stanfordnlp.github.io/安装了S
java - Stanford Core NLP ner 4.0.0错误: Could not find or load main class stanford-ner.jar;lib.*
我正在尝试使用Stanford CoreNLP训练NER模型，但是找不到主类。我已经在我的CLASSPATH中包含了jar文件的路径，但仍然找不到它们。有什么办法解决这个问题吗？ C:\ Users
scala - 类型不匹配;找到 : edu. stanford.nlp.util.CoreMap => 需要单位 : java. util.function.Consumer[_> : edu. stanford.nlp.util.CoreMap]
我不明白它要我做什么。分配给 sentence正在工作: val sentences : java.util.List[CoreMap] = document.get(classOf[Sentence
stanford-nlp - 斯坦福NLP训练情感模型
我正在参加 Rotten Tomatoes NLP 预测的 kaggle 竞赛。训练集格式解析如下: PhraseId SentenceId Phrase Sentiment 1 1 A serie

首页

博学

6Ren·AI

商城

python - 如何用Python定制Stanford NER？