- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在自定义数据集上训练斯坦福 NER CRF 模型,但用于训练模型的迭代次数现在已经达到333次迭代——即而这个训练过程现在已经持续了几个小时。以下是终端中打印的消息 -
Iter 335 evals 400 <D> [M 1.000E0] 2.880E3 38054.87s |5.680E1| {6.652E-6} 4.488E-4 -
Iter 336 evals 401 <D> [M 1.000E0] 2.880E3 38153.66s |1.243E2| {1.456E-5} 4.415E-4 -
-
下面给出了正在使用的属性文件 - 有什么方法可以将迭代次数限制为 20。
location of the training file
trainFile = TRAIN5000.tsv
#location where you would like to save (serialize to) your
#classifier; adding .gz at the end automatically gzips the file,
#making it faster and smaller
serializeTo = ner-model_TRAIN5000.ser.gz
#structure of your training file; this tells the classifier
#that the word is in column 0 and the correct answer is in
#column 1
map = word=0,answer=1
#these are the features we'd like to train with
#some are discussed below, the rest can be
#understood by looking at NERFeatureFactory
useClassFeature=true
useWord=true
useNGrams=true
#no ngrams will be included that do not contain either the
#beginning or end of the word
noMidNGrams=true
useDisjunctive=true
maxNGramLeng=6
usePrev=true
useNext=true
useSequences=true
usePrevSequences=true
maxLeft=1
#the next 4 deal with word shape features
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC
saveFeatureIndexToDisk = true
printFeatures=true
flag useObservedSequencesOnly=true
featureDiffThresh=0.05
最佳答案
我尝试通过 Stanford CoreNLP CRF 分类器
在 IOB 标记的标记化文本上训练生物医学 (BioNER) 模型,如 https://nlp.stanford.edu/software/crf-faq.html 中所述。 。
我的语料库(来自下载的源)非常大(约 150 万行;6 个特征:GENE;...)。由于训练似乎无限期地进行,我绘制了值的比率以了解进度:
Grepping Java源代码,我发现默认的TOL
(tolerance
;用于决定何时终止训练 session )值为1E-6(0.000001) ,在 .../CoreNLP/src/edu/stanford/nlp/optimization/QNMinimizer.java
中指定。
看那个情节,我原来的训练类(class)永远不会完成。 [该图还显示设置更大的 TOL
值,例如tolerance=0.05
将触发训练提前终止,因为该 TOL
值是由训练类(class)开始时出现的“噪音”触发的。我通过 .prop
文件中的 tolerance=0.05
条目确认了这一点;但是,0.01
、0.005
等的 TOL
值是“OK”。]
将“maxIterations=20
”添加到属性文件中,如 @StanfordNLPHelp(本线程其他位置)所述,似乎会被忽略,除非我还添加并更改了 tolerance=
值,在我的 bioner.prop
属性文件中;例如
tolerance=0.005
maxIterations=20 ## optional
在这种情况下,分类器快速训练模型 (bioner.ser.gz
)。 [当我将 maxIterations
行添加到 .prop
文件中,而不添加 tolerance
行时,模型只是“永远”运行,如下所示之前。]
可以在此处找到可包含在 .prop
文件中的参数列表:
https://nlp.stanford.edu/nlp/javadoc/javanlp-3.5.0/edu/stanford/nlp/ie/NERFeatureFactory.html
关于nlp - 限制斯坦福 NER 中的迭代次数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43298610/
在 spaCy < 3.0 中,我能够在经过训练的 en_core_web_sm 模型中训练 NER 组件: python -m spacy train en model training valid
代码片段如下: In [390]: t Out[390]: ['my', 'phone', 'number', 'is', '1111', '1111', '1111'] In [391]: ner_
我正在使用 python 的内置库 nltk 来获取 stanford ner tagger api 设置,但我发现此 api 的单词标记与 stanford 的 ner tagger 网站上的在线演
我已经在我的 VM 上设置了所有安装的需求包,但我发现没有安装 nvidia GPU 驱动程序,在需求中没有 nvidia GPU 驱动程序安装说明,我想知道哪个 cuda 版本和它兼容的 nvidi
我正在尝试使用Stanford CoreNLP训练NER模型,但是找不到主类。我已经在我的CLASSPATH中包含了jar文件的路径,但仍然找不到它们。有什么办法解决这个问题吗? C:\ Users
在 opennlp 的文档中提到,我们必须用 15000 行来训练我们的模型以获得良好的性能。 现在,我必须从文档中提取不同的实体,这意味着我必须为训练数据(15000 行)中的许多标记添加不同的标签
我正在编写一些代码来执行命名实体识别 (NER),这对于英文文本来说效果很好。但是,我希望能够将 NER 应用于任何语言。为此,我想 1) 识别文本的语言,然后 2) 将 NER 应用于识别的语言。对
我正在尝试训练一种新的实体类型“HE INST”——以识别大学。 那是唯一的新标签。我有一个很长的文档作为原始文本。我在其上运行 NER 并将实体保存到 TRAIN DATA 中,然后将新实体标签添加
...或者性别信息就足够了吗?更具体地说,我有兴趣知道是否可以减少斯坦福核心 NLP 加载的模型数量以提取共指。我对实际的命名实体识别不感兴趣。 谢谢 最佳答案 根据描述使用斯坦福 CoreNLP 打
我刚刚开始使用斯坦福 CoreNLP,我想构建一个自定义 NER 模型来查找人员。 不幸的是,我没有找到一个好的意大利语ner模型。我需要在简历/简历文档中找到这些实体。 这里的问题是像这样的文档可以
我从这里学会了如何用 Java 定制斯坦福 NER(命名实体识别器): http://nlp.stanford.edu/software/crf-faq.shtml#a 但是我正在使用 Python
我需要构建一个识别特定域中的 NE 的分类器。例如,如果我的域是曲棍球或足球,分类器应该接受该域中的 NE,但不接受它在网页上看到的所有代词。我的最终目标是通过 NER 改进文本分类。 对于从事该领域
我想识别特定领域(例如棒球)中的命名实体。我知道有一些可用的工具,如斯坦福NER、LingPipe、AlchemyAPI,我已经用它们做了一些测试。但正如我之前提到的,我希望它们是针对特定领域的。这怎
我正在尝试构建一个用于产品名称及其型号的自定义命名实体提取器。 我的用例包含如下句子:“微软使用了产品 ABC-300 并将其与 ASQ 集成”。上句提到的产品是:ABC-300和ASQ 我已经尝试过
我从来没有真正处理过 NLP,但对 NER 有一个想法,它不应该起作用,但在某种情况下却做得非常好。我不明白它为什么起作用,为什么不起作用或天气可以延长。 我们的想法是通过以下方式提取故事中主要人物的
我正在寻找关于以下问题的想法/想法: 我正在处理食品成分数据,例如:牛奶、糖、鸡蛋、面粉,可能含有坚果 我希望能够从这样的文本中识别和提取像可能包含坚果这样的短语,以分别对其进行预处理 这类短语在长度
我已经创建了一个用于训练 NER 数据的数据集。创建后,我想在应用于训练管道之前测试实体和数据是否匹配。使用位移我们可以以更好的方式可视化。但是如何在 spacy 3 中完成。 最佳答案 上面问题的代
执行此 Stanford NLP FAQ 中的步骤后,我能够生成模型的 zip 文件。但在文档中,他们使用 TSV 文件来计算针对已注释文件的预测准确性,但没有任何文档说明如何针对新文件对其进行测试!
我在检测以小写字母开头的命名实体时遇到问题。如果我只用小写单词训练模型,那么准确率是合理的;但是,当模型使用完全大写的标记或什至是小写和大写混合训练时,结果非常糟糕。我尝试了斯坦福 NLP 小组提供的
我现在正在使用一些 NLP 库,(stanford 和 nltk) 斯坦福我看到了演示部分,但只是想问问是否可以用它来识别更多的实体类型。 因此,目前斯坦福 NER 系统(如演示所示)可以将实体识别为
我是一名优秀的程序员,十分优秀!