gpt4 book ai didi

nlp - 对于对自然语言处理感兴趣的人来说,什么是好的起点?

转载 作者:行者123 更新时间:2023-12-03 07:11:11 27 4
gpt4 key购买 nike

问题

所以我最近想出了一些新的可能项目,这些项目必须处理从用户提交和生成的文本中获取“含义”。

Natural language processing是处理此类问题的领域,经过一些初步研究,我发现了 OpenNLP Hub和大学合作,如attempto project 。 stackoverflow 有 this .

如果有人能给我链接一些好的资源,从研究论文、介绍性文本到 API,我会比一个 6 岁的 child 打开圣诞礼物更高兴!

更新

通过您的建议,我发现 opencyc (“世界上最大、最完整的通用知识库和常识推理引擎”)。更令人惊奇的是,有一个项目是 opencyc 的精炼版本,名为 UMBEL 。它具有 rdf/owl/skos n3 语法中的语义数据。

我还偶然发现了 antlr ,一个解析器生成器,用于“根据语法描述构造识别器、解释器、编译器和翻译器”。

我在这里提出了一个问题,其中列出了大量的 free and open data .

感谢 stackoverflow 社区!

最佳答案

艰难的抉择,NLP 的领域比大多数人想象的要广泛得多。基本上,语言可以分为几个类别,这将需要您学习完全不同的东西。

在开始之前,让我告诉您,如果您没有某个(密切相关的)领域的学位,我怀疑您是否会取得任何显着的成功(至少作为专业人士)。涉及到的理论很多,大部分都是干货,很难学。您需要很强的耐力,最重要的是:时间。

如果您对文本的含义感兴趣,那么,这就是下一件大事。语义搜索引擎预计将引领 Web 3.0,但我们距离“实现”还很远。从文本中提取逻辑取决于几个步骤:

  • 标记化、分块
  • 词汇层面的歧义消除(时光如箭,果蝇如香蕉。)
  • 句法分析
  • 词法分析(时态、体、格、数等)

我突然想到了一个小 list 。还有更多:-),每一点还有更多细节。例如,当我说“解析”时,这是什么?有许多不同的解析算法,并且有同样多的解析形式。其中最强大的是 Tree-adjoining grammarHead-driven phrase structure grammar 。但它们都很少在现场使用(目前)。通常,您将处理一些不成熟的生成方法,并且必须自己进行形态分析。

从那里到语义是一大步。语法/语义接口(interface)既依赖于所使用的语法框架,又依赖于所使用的语义框架,并且目前还没有单一的工作解决方案。在语义方面,有经典的生成语义,然后是 Discourse Representation Theory , dynamic semantics , 还有很多。即使一切所基于的逻辑形式主义仍然没有明确定义。有人说应该使用一阶逻辑,但这似乎还不够。然后是蒙塔古使用的内涵逻辑,但这似乎过于复杂,并且在计算上不可行。还有动态逻辑(Groenendijk 和 Stokhof 开创了这个东西。很棒的东西!)最近,实际上是今年夏天,Jeroen Groenendijk提出了一种新的形式主义,好奇 语义,也很有趣。

如果您想从非常简单的水平开始,请阅读Blackburn and Bos (2005) ,这是很棒的东西,而且是计算语义学的事实上的介绍!我最近扩展了他们的系统以涵盖问题的划分理论(问答是一个野兽!),正如 Groenendijk 和 Stokhof(1982)提出的那样,但不幸的是,该理论在个体领域的复杂度为 O(n²) 。在这样做的过程中,我发现 B&B 的实现在某些地方有点,呃……黑客。尽管如此,它确实会帮助你深入研究计算语义,而且它仍然是一个非常令人印象深刻的展示,展示了可以做什么。此外,他们值得额外的酷点来实现低俗小说(电影)中解决的语法。

当我这样做的时候,拿起 Prolog。计算语义学的很多研究都是基于Prolog。 Learn Prolog Now!是一个很好的介绍。我还可以推荐《Prolog 的艺术》和 Covington 的《Prolog 深度编程》和《Prolog 程序员的自然语言处理》,前者可以在网上免费获得。

关于nlp - 对于对自然语言处理感兴趣的人来说,什么是好的起点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/212219/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com