- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我需要为我的一个项目解析一小部分英语,该项目被描述为具有(1 级)特征结构 (example) 的上下文无关语法,我需要高效地完成。
现在我正在使用 NLTK的解析器产生正确的输出,但速度很慢。对于我的约 450 条相当模糊的非词汇规则和 50 万个词汇条目的语法,解析简单句子可能需要 2 到 30 秒,具体取决于结果树的数量。词法条目对性能几乎没有影响。
另一个问题是,在开头加载 (25MB) 语法+词典可能需要一分钟。
从我在文献中可以找到的,用于解析这种文法(Earley 或 CKY)的算法的运行时间应该与文法的大小成线性关系,并与输入标记列表的大小成三次关系。我对 NLTK 的经验表明,歧义对性能的影响最大,而不是语法的绝对大小。
所以现在我正在寻找一个 CFG 解析器来替换 NLTK。我一直在考虑PLY但我不知道它是否支持 CFG 中的特征结构,这在我的情况下是必需的,而且我看到的示例似乎做了很多程序解析,而不仅仅是指定语法。谁能给我看一个既支持特征结构又使用声明性语法的 PLY 示例?
我也可以使用任何其他可以有效地完成我需要的解析器。 Python 接口(interface)是可取的,但不是绝对必要的。
最佳答案
一定要看看Pyparsing .这是我遇到的最 Pythonic 的解析实现,从纯粹的学术角度来看,这是一个很棒的设计。
我同时使用了 ANTLR和 JavaCC在本地大学教授翻译和编译理论。它们既好又成熟,但我不会在 Python 项目中使用它们。
也就是说,与编程语言不同,自然语言更多地关注语义而不是语法,因此您最好跳过现有解析工具的学习曲线,使用自制的(自上而下,回溯,无限前瞻)词法分析器和解析器,并花费大量时间编写代码来确定已解析但模棱两可的自然语言句子的含义。
关于python - 高效的上下文无关语法解析器,最好是 Python 友好的,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4543008/
所以这只是一个好奇的问题。 如果我想退回单位,哪个更好? |> ignore 或者 () 应该还有其他方法。考虑到这些,我只想知道什么是最好的: 什么是性能最高的 生产环境的最佳实践是什么 什么是长期
我如何(最好)将方法调用返回的Option转换为Try(通过首选项,尽管Either或scalaz \/甚至是Validation都可以),包括在适当时指定Failure值? 例如,我有以下代码,虽然
我读了第一本关于 C# 的书,但对 LINQ 完全一无所知。请推荐对读者友好的 linq Material 。 谢谢 最佳答案 LINQ in Action已经有好几个人向我推荐了。 关于c# - 从
这个问题已经有答案了: How to create a template in HTML? (3 个回答) 已关闭 7 年前。 我正在寻找一种将一个 html 文件包含在另一个 html 文件中的最佳
我有一个在线注册,可以将数据保存到托管的 mssql 数据库中......基本上我想做的是在本地服务器上运行日常例行程序,就像 Insert into Home.tableA Select * fro
我有文本文件要加载到数据框中。加载后,这些值都在一列中,格式如下: 0 Alabama[edit] 1 Auburn (something somethign) 2 Florence (somethi
例如:我有一个带有外键的“历史”表,它可能根据字段值指向不同的表/实体。 表历史: create table history( id int PimaryKey AUTO_INC, e
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 5 年前。 Improve this qu
我有业务对象(DEVELOPERS WRITE)和一些 SPROCS(DBA WRITE) 谁能推荐一个好的对象映射器来处理这种设置。 我尝试了 codesmith 和 nhibernate,但遇到了
我应该测试 if 某事是否有效,还是只测试 try 来执行它并捕获异常? 是否有任何可靠的文档表明首选一种方法? 还有一种方式 pythonic? 例如,我应该: if len(my_list) >=
在 Java 中遍历字符串字符的一些方法是: 使用 StringTokenizer? 将 String 转换为 char[] 并对其进行迭代。 最简单/最好/最正确的迭代方式是什么? 最佳答案 我使用
我是一个真正的 Erlang 新手(1 周前开始),我正在尝试通过创建一个小而高效的聊天服务器来学习这种语言。 (当我说高效时,我的意思是我有 5 台服务器用于对数十万连接的客户端进行压力测试 - 一
这个问题已经有答案了: How to access the correct `this` inside a callback (15 个回答) 已关闭 5 年前。 我正在使用 NPM 包 prompt
到目前为止我已经做了一些测试(例如 RPC)接下来我来到多分页部分,到目前为止我读到的内容中有很多选项: MVP、布局、UIbind。 现在我真的不知道该选择哪个,哪个既简单又好。 我尝试清除我的根面
我们正在寻找我们能找到的最好的基于 jQuery 的用户界面库。它不一定是免费的。人们在使用什么? 我们使用过jQueryUI ,但发展似乎已经停滞。很长一段时间以来没有太多新东西。 jQuery T
我是 OpenCL 编程的初学者。我的 PC 装有 Windows 8.1,配备英特尔显卡和 AMD Radeon 7670。当我搜索下载 OpenCL SDK 和示例 helloworld 程序时,
我从人们那里得到的印象是...除非与 process.nextTick 一起使用,否则所有 JavaScript 函数都是同步的。什么时候使用它最好? 我想确保我不会在不需要它的地方过度使用它。在这一
我有一个单词列表,我想对其进行过滤,这样我就只有该单词列表中的名词(使用 Java)。为此,我正在寻找一种简单的方法来查询单词数据库的类型。 我的问题是有没有人知道一个免费、简单的单词查找 API,它
我想开发一个新的 iPhone 应用程序,我之前开发了一个应用程序,但被应用程序商店拒绝了,因为我使用的 StoryBoard 在之前的 iOS 4.3 中不起作用,所以我改用了 XIB。 现在最低版
我正在尝试制作注册表,我只想在其中注册特定域的电子邮件。例如我只想注册来自 companyX、companyY、companyZ 的电子邮件。 因此可接受的电子邮件将是:- myname@compan
我是一名优秀的程序员,十分优秀!