- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我已经下载了 BLLIP语料库并想将其导入 NLTK。问题的答案中描述了我发现的一种方法 How to read corpus of parsed sentences using NLTK in python? .在那个答案中,他们正在为一个数据文件做这件事。我想收集它们。
BLLIP 语料库是几百万个文件的集合,每个文件都包含几个经过解析的句子。包含数据的主文件夹名为 bllip_87_89_wsj
,它包含 3 个子文件夹,1987
、1988
、1989
(每年一个)。在子文件夹 1987
中,您有子文件夹,每个子文件夹包含许多与解析的句子相对应的文件。子文件夹的名称类似于 w7_001
(对于文件夹 1987
),文件名为 w7_001.000
、w7_001.001
等等等等。
有了这一切,我的任务如下:使用 NLTK 解析器顺序读取所有文件。然后,将语料库转换为列表列表,其中每个子列表是一个句子。
第二部分很简单,使用命令 corpus_name.sents()
完成。这是我不知道如何处理的任务的第一部分。
欢迎所有建议。我还特别欢迎提出替代的、更有效的方法来替代我想到的方法。
更新:
BLLIP语料库的解析句子有如下形式:
(S (NP (DT the) (JJ little) (NN dog)) (VP (VBD barked)))
在许多句子中有一个语法类别,形式为 (-NONE- *-0)
所以当我阅读语料库时 *-0
被认为是单词。有没有办法忽略语法类别-NONE-
。例如,如果我有这句话
(S (NP-SBJ (-NONE- *-0))
(VP (TO to)
(VP (VB sell)
(NP (NP (PRP$#0 its) (NN TV) (NN station))
(NN advertising)
(NN representation)
(NN operation)
(CC and)
(NN program)
(NN production)
(NN unit))
我希望它变成:
出售其电视台广告代理业务和节目制作单位
而不是
*-0出售其电视台广告代理业务和节目制作单位
当前是什么。
最佳答案
question你链接到只是有点误导。事实上,该代码示例只读取一个文件,但 nltk
的语料库阅读器界面专为阅读大量文件而设计。读者必读的论据constructor是语料库的基本文件夹的路径和匹配所有应该读入的文件名的正则表达式(一个普通的,而不是“glob”)。所以只需适应the answer通过添加适当的正则表达式来解决问题。 (如果您的语料库与 BracketParseCorpusReader
默认值不匹配,还要添加格式选项。)例如:
from nltk.corpus.reader import BracketParseCorpusReader
reader = BracketParseCorpusReader('path/to/bllip_87_89_wsj', r'.*/w\d_.*')
这将匹配任何名称以 w<digit>_
开头的文件, 在任何子文件夹中。如果您碰巧有匹配此模式但必须排除的文件(例如:w7_001.001-old
),您可以锐化上述正则表达式。
您可以像使用随 nltk 分发的已解析语料库一样使用此语料库阅读器。请注意,由于您有数百万个文件,因此应避免构建句子列表(甚至文件名列表)。阅读器的方法返回“ View ”,这是一种特殊的对象,允许您迭代和索引结果,而无需将整个结果列表加载到内存中。
关于python - 使用 NLTK 导入外部树库式 BLLIP 语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42634503/
关于 B 树与 B+ 树,网上有一个比较经典的问题:为什么 MongoDb 使用 B 树,而 MySQL 索引使用 B+ 树? 但实际上 MongoDb 真的用的是 B 树吗?
如何将 R* Tree 实现为持久(基于磁盘)树?保存 R* 树索引或保存叶值的文件的体系结构是什么? 注意:此外,如何在这种持久性 R* 树中执行插入、更新和删除操作? 注意事项二:我已经实现了一个
目前,我正在努力用 Java 表示我用 SML 编写的 AST 树,这样我就可以随时用 Java 遍历它。 我想知道是否应该在 Java 中创建一个 Node 类,其中包含我想要表示的数据,以及一个数
我之前用过这个库http://www.cs.umd.edu/~mount/ANN/ .但是,它们不提供范围查询实现。我猜是否有一个 C++ 范围查询实现(圆形或矩形),用于查询二维数据。 谢谢。 最佳
在进一步分析为什么MySQL数据库索引选择使用B+树之前,我相信很多小伙伴对数据结构中的树还是有些许模糊的,因此我们由浅入深一步步探讨树的演进过程,在一步步引出B树以及为什么MySQL数据库索引选择
书接上回,今天和大家一起动手来自己实现树。 相信通过前面的章节学习,大家已经明白树是什么了,今天我们主要针对二叉树,分别使用顺序存储和链式存储来实现树。 01、数组实现 我们在上一节中说过,
书节上回,我们接着聊二叉树,N叉树,以及树的存储。 01、满二叉树 如果一个二叉树,除最后一层节点外,每一层的节点数都达到最大值,即每个节点都有两个子节点,同时所有叶子节点都在最后一层,则这个
树是一种非线性数据结构,是以分支关系定义的层次结构,因此形态上和自然界中的倒挂的树很像,而数据结构中树根向上树叶向下。 什么是树? 01、定义 树是由n(n>=0)个元素节点组成的
操作系统的那棵“树” 今天从一颗 开始,我们看看如何从小树苗长成一颗苍天大树。 运转CPU CPU运转起来很简单,就是不断的从内存取值执行。 CPU没有好好运转 IO是个耗费时间的活,如果CPU在取值
我想为海洋生物学类(class)制作一个简单的系统发育树作为教育示例。我有一个具有分类等级的物种列表: Group <- c("Benthos","Benthos","Benthos","Be
我从这段代码中删除节点时遇到问题,如果我插入数字 12 并尝试删除它,它不会删除它,我尝试调试,似乎当它尝试删除时,它出错了树的。但是,如果我尝试删除它已经插入主节点的节点,它将删除它,或者我插入数字
B+ 树的叶节点链接在一起。将 B+ 树的指针结构视为有向图,它不是循环的。但是忽略指针的方向并将其视为链接在一起的无向叶节点会在图中创建循环。 在 Haskell 中,如何将叶子构造为父内部节点的子
我在 GWT 中使用树控件。我有一个自定义小部件,我将其添加为 TreeItem: Tree testTree = new Tree(); testTree.addItem(myWidget); 我想
它有点像混合树/链表结构。这是我定义结构的方式 struct node { nodeP sibling; nodeP child; nodeP parent; char
我编写了使用队列遍历树的代码,但是下面的出队函数生成错误,head = p->next 是否有问题?我不明白为什么这部分是错误的。 void Levelorder(void) { node *tmp,
例如,我想解析以下数组: var array1 = ["a.b.c.d", "a.e.f.g", "a.h", "a.i.j", "a.b.k"] 进入: var json1 = { "nod
问题 -> 给定一棵二叉树和一个和,确定该树是否具有从根到叶的路径,使得沿路径的所有值相加等于给定的和。 我的解决方案 -> public class Solution { public bo
我有一个创建 java 树的任务,它包含三列:运动名称、运动类别中的运动计数和上次更新。类似的东西显示在下面的图像上: 如您所见,有 4 种运动:水上运动、球类运动、跳伞运动和舞蹈运动。当我展开 sk
我想在 H2 数据库中实现 B+ Tree,但我想知道,B+ Tree 功能在 H2 数据库中可用吗? 最佳答案 H2 已经使用了 B+ 树(PageBtree 类)。 关于mysql - H2数据库
假设我们有 5 个字符串数组: String[] array1 = {"hello", "i", "cat"}; String[] array2 = {"hello", "i", "am"}; Str
我是一名优秀的程序员,十分优秀!