gpt4 book ai didi

java - 交互式 NLP 词性 (POS) 标记 - 强制某些术语成为特定标记

转载 作者:行者123 更新时间:2023-12-01 11:39:48 26 4
gpt4 key购买 nike

我正在尝试执行词性标记,并且我对任何基于 Java 的标记器持开放态度(当前使用 OpenNLP)。有没有办法“强制”标记器将特定术语(或单词组合)识别为特定标签,并据此对其他术语进行分类?有点允许标记的“交互式校正”。鉴于这种“纠正”是交互式的,利用这些新信息对标记器进行实时“全面训练”并不实际。

因此,例如考虑这句话:“我从来没有在湖里游泳付出了那么多的努力”。这里,“游泳”是一个动名词(名词,而不是动词),并且用户可能会说“在湖里游泳”是一个名词(在整个句子的上下文中)。如果他指定了这一点,那么标记者将“湖”作为单独的名词吐出来就不好了,因为“湖”已经是“在湖里游泳”的一部分。

你们认为最好的方法是什么?是否有 API 调用,或者我是否必须在标记之前用其他内容替换“在湖中游泳”?但是,我认为后一种方法不太可靠,因为从那时起,当用户确切地告诉我它应该是什么时,我仍然依赖标记器来正确标记它。谢谢。

最佳答案

如果您想让其他标签围绕给定的固定 POS 标签进行更改,(据我所知)在 CoreNLP 中无法在不重新训练标记器的情况下执行此操作。

但是,听起来您想要的实际上是标记器差异:“在湖中游泳”是一个名词短语而不是名词,无论您如何训练词性标注器,它都会标记“在湖中游泳”中的四个单词独立的短语。你可以做的一件事是使用分块器(我认为 OpenNLP 有一个)或解析器来提取这些名词短语;事实上,即使 POS 标记器搞砸了,解析也应该正确地猜测 span 是一个名词短语。

关于java - 交互式 NLP 词性 (POS) 标记 - 强制某些术语成为特定标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29625909/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com