gpt4 book ai didi

java - 如何用java获取句子的逻辑部分?

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:39:18 24 4
gpt4 key购买 nike

假设有一句话:

On March 1, he was born.

将其更改为

He was born on March 1.

没有破坏句子的意思,它仍然有效。以任何其他方式改组单词会产生奇怪的无效句子。所以基本上,我说的是句子的某些部分,它们使信息更具体,但删除它们并不会破坏整个句子。是否有任何 NLP 库可以识别这些部分?

最佳答案

成分

听起来您想识别句子的 constituents ,它们是根据语言语法作为单个单元运行的词组。

事实上,当语言学家试图发现一种语言的语法时,他们部分地通过查看 movement 来做到这一点。 .在您的示例中,这就是一组单词可以移动到句子中不同位置的地方,同时仍保留句子的含义。

成分可以是单个单词、短语,甚至是更大的组,例如整个子句。在一个句子中,它们具有嵌套的层次结构。比如你给出的第一个例句可以分析为:

(S  (PP (IN On) (NP (NNP March) (CD 1)))
(NP (PRP he))
(VP (VBD was) (VP (VBN born))))

整个句子由prepositional phrase组成, 其次是 noun phrase , 然后是 verb phrase .介词短语可以进一步分解为由单个单词“On”和后跟一个名词短语组成的单元。

短语结构解析器

要自动查找成分,您可能需要使用短语结构解析器。有许多可供选择的开源解析,包括:

Stanford 和 Berkeley 解析器可能是最容易安装和使用的。如 Cer et al. 2010 中所示,最准确的解析器是 Berkeley 和 Charniak。 Bikel 解析器比其他解析器更慢且更不准确。

在线演示

斯坦福解析器有一个在线演示 here .我使用演示生成了上面给出的例句的解析。

关于删除的注意事项

在每个成分中,都会有一个 head word .例如,以名词短语为例:

(NP (DT The) (JJ big) (JJ blue) (NN ball))

这里的中心词是名词ball,被形容词bigblue修饰。如果这个名词短语被嵌入到一个句子中,你可以删除那些修饰语,并且仍然有一些与原始句子的意思一致但不那么具体的东西。

在名词短语中,一般可以删除形容词、非中心名词和嵌套的介词短语。

在动词短语和完整的从句中,事情变得更加棘手,因为删除作为动词论元的 Material 可以完全改变句子的解释。例如,从 He sold Jim the book 中删除 the book 会导致 He sold Jim

关于java - 如何用java获取句子的逻辑部分?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2699646/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com