作者热门文章
- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我正在尝试编写一个在 Java 中使用自然语言词性的程序。我一直在 Google 上搜索,但没有找到整个 Brown 语料库(或另一个标记词语料库)。我一直在寻找我不感兴趣的 NLTK 信息。我希望能够将数据加载到 Java 程序中并总结出现的单词(以及它们成为词性的可能性百分比)。
我不想使用像斯坦福那样的 Java 库,我想自己玩弄语料库数据。
最佳答案
这是布朗语料库下载页面的链接:http://www.nltk.org/nltk_data/
所有文件都是压缩文件。 Brown Corpus Wikipedia 中描述了数据格式.我不知道还能说什么。从那里事情应该是显而易见的。
编辑:如果你想要原始源数据,我认为那里有一些语料库有他们的数据。但是通常关键是让其他人进行采样。另外,请注意维基百科条目中的这一点:“每个样本都从文章或其他所选单元中的随机句子边界开始,并持续到 2,000 个单词后的第一个句子边界。”所以布朗语料库的数据基本上是随机的。即使您有原始文本,您也可能无法猜出它们在何处采样。
关于java - 我如何在 Java 中访问布朗语料库(又名 NLTK 之外),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30685404/
我是一名优秀的程序员,十分优秀!