- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
所以我最近想出了一些新的可能项目,这些项目必须处理从用户提交和生成的文本中获取“含义”。
Natural language processing是处理此类问题的领域,经过一些初步研究,我发现了 OpenNLP Hub和大学合作,如attempto project 。 stackoverflow 有 this .
如果有人能给我链接一些好的资源,从研究论文、介绍性文本到 API,我会比一个 6 岁的 child 打开圣诞礼物更高兴!
通过您的建议,我发现 opencyc (“世界上最大、最完整的通用知识库和常识推理引擎”)。更令人惊奇的是,有一个项目是 opencyc 的精炼版本,名为 UMBEL 。它具有 rdf/owl/skos n3 语法中的语义数据。
我还偶然发现了 antlr ,一个解析器生成器,用于“根据语法描述构造识别器、解释器、编译器和翻译器”。
我在这里提出了一个问题,其中列出了大量的 free and open data .
感谢 stackoverflow 社区!
最佳答案
艰难的抉择,NLP 的领域比大多数人想象的要广泛得多。基本上,语言可以分为几个类别,这将需要您学习完全不同的东西。
在开始之前,让我告诉您,如果您没有某个(密切相关的)领域的学位,我怀疑您是否会取得任何显着的成功(至少作为专业人士)。涉及到的理论很多,大部分都是干货,很难学。您需要很强的耐力,最重要的是:时间。
如果您对文本的含义感兴趣,那么,这就是下一件大事。语义搜索引擎预计将引领 Web 3.0,但我们距离“实现”还很远。从文本中提取逻辑取决于几个步骤:
我突然想到了一个小 list 。还有更多:-),每一点还有更多细节。例如,当我说“解析”时,这是什么?有许多不同的解析算法,并且有同样多的解析形式。其中最强大的是 Tree-adjoining grammar和 Head-driven phrase structure grammar 。但它们都很少在现场使用(目前)。通常,您将处理一些不成熟的生成方法,并且必须自己进行形态分析。
从那里到语义是一大步。语法/语义接口(interface)既依赖于所使用的语法框架,又依赖于所使用的语义框架,并且目前还没有单一的工作解决方案。在语义方面,有经典的生成语义,然后是 Discourse Representation Theory , dynamic semantics , 还有很多。即使一切所基于的逻辑形式主义仍然没有明确定义。有人说应该使用一阶逻辑,但这似乎还不够。然后是蒙塔古使用的内涵逻辑,但这似乎过于复杂,并且在计算上不可行。还有动态逻辑(Groenendijk 和 Stokhof 开创了这个东西。很棒的东西!)最近,实际上是今年夏天,Jeroen Groenendijk提出了一种新的形式主义,好奇 语义,也很有趣。
如果您想从非常简单的水平开始,请阅读Blackburn and Bos (2005) ,这是很棒的东西,而且是计算语义学的事实上的介绍!我最近扩展了他们的系统以涵盖问题的划分理论(问答是一个野兽!),正如 Groenendijk 和 Stokhof(1982)提出的那样,但不幸的是,该理论在个体领域的复杂度为 O(n²) 。在这样做的过程中,我发现 B&B 的实现在某些地方有点,呃……黑客。尽管如此,它确实会帮助你深入研究计算语义,而且它仍然是一个非常令人印象深刻的展示,展示了可以做什么。此外,他们值得额外的酷点来实现低俗小说(电影)中解决的语法。
当我这样做的时候,拿起 Prolog。计算语义学的很多研究都是基于Prolog。 Learn Prolog Now!是一个很好的介绍。我还可以推荐《Prolog 的艺术》和 Covington 的《Prolog 深度编程》和《Prolog 程序员的自然语言处理》,前者可以在网上免费获得。
关于nlp - 对于对自然语言处理感兴趣的人来说,什么是好的起点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/212219/
至少在某些 ML 系列语言中,您可以定义可以执行模式匹配的记录,例如http://learnyouahaskell.com/making-our-own-types-and-typeclasses -
这可能是其他人已经看到的一个问题,但我正在尝试寻找一种专为(或支持)并发编程而设计的语言,该语言可以在 .net 平台上运行。 我一直在 erlang 中进行辅助开发,以了解该语言,并且喜欢建立一个稳
As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be
我正在寻找一种进程间通信工具,可以在相同或不同系统上运行的语言和/或环境之间使用。例如,它应该允许在 Java、C# 和/或 C++ 组件之间发送信号,并且还应该支持某种排队机制。唯一明显与环境和语言
我有一些以不同语言返回的文本。现在,客户端返回的文本格式为(en-us,又名美国英语): Stuff here to keep. -- Delete Here -- all of this below
问题:我希望在 R 中找到类似 findInterval 的函数,它为输入提供一个标量和一个表示区间起点的向量,并返回标量落入的区间的索引。例如在 R 中: findInterval(x = 2.6,
我是安卓新手。我正在尝试进行简单的登录 Activity ,但当我单击“登录”按钮时出现运行时错误。我认为我没有正确获取数据。我已经检查过,SQLite 中有一个与该 PK 相对应的数据。 日志猫。
大家好,感谢您帮助我。 我用 C# 制作了这个计算器,但遇到了一个问题。 当我添加像 5+5+5 这样的东西时,它给了我正确的结果,但是当我想减去两个以上的数字并且还想除或乘以两个以上的数字时,我没有
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 4 年前。 Improve th
这就是我所拥有的 #include #include void print(int a[], int size); void sort (int a[], int size); v
你好,我正在寻找我哪里做错了? #include #include int main(int argc, char *argv[]) { int account_on_the_ban
嘿,当我开始向数组输入数据时,我的代码崩溃了。该程序应该将数字读入数组,然后将新数字插入数组中,最后按升序排列所有内容。我不确定它出了什么问题。有人有建议吗? 这是我的代码 #include #in
我已经盯着这个问题好几个星期了,但我一无所获!它不起作用,我知道那么多,但我不知道为什么或出了什么问题。我确实知道开发人员针对我突出显示的行吐出了“错误:预期表达式”,但这实际上只是冰山一角。如果有人
我正在编写一个点对点聊天程序。在此程序中,客户端和服务器功能写入一个唯一的文件中。首先我想问一下我程序中的机制是否正确? I fork() two processes, one for client
基本上我需要找到一种方法来发现段落是否以句点 (.) 结束。 此时我已经可以计算给定文本的段落数,但我没有想出任何东西来检查它是否在句点内结束。 任何帮助都会帮助我,谢谢 char ch; FI
我的函数 save_words 接收 Armazena 和大小。 Armazena 是一个包含段落的动态数组,size 是数组的大小。在这个函数中,我想将单词放入其他称为单词的动态数组中。当我运行它时
我有一个结构 struct Human { char *name; struct location *location; int
我正在尝试缩进以下代码的字符串输出,但由于某种原因,我的变量不断从文件中提取,并且具有不同长度的噪声或空间(我不确定)。 这是我的代码: #include #include int main (v
我想让用户选择一个选项。所以我声明了一个名为 Choice 的变量,我希望它输入一个只能是 'M' 的 char 、'C'、'O' 或 'P'。 这是我的代码: char Choice; printf
我正在寻找一种解决方案,将定义和变量的值连接到数组中。我已经尝试过像这样使用 memcpy 但它不起作用: #define ADDRESS {0x00, 0x00, 0x00, 0x00, 0x0
我是一名优秀的程序员,十分优秀!