java - 我如何在 Java 中访问布朗语料库(又名 NLTK 之外)-6ren

java - 我如何在 Java 中访问布朗语料库(又名 NLTK 之外)

转载作者：搜寻专家更新时间：2023-11-01 01:25:45

我正在尝试编写一个在 Java 中使用自然语言词性的程序。我一直在 Google 上搜索，但没有找到整个 Brown 语料库(或另一个标记词语料库)。我一直在寻找我不感兴趣的 NLTK 信息。我希望能够将数据加载到 Java 程序中并总结出现的单词(以及它们成为词性的可能性百分比)。

我不想使用像斯坦福那样的 Java 库，我想自己玩弄语料库数据。

最佳答案

这是布朗语料库下载页面的链接:http://www.nltk.org/nltk_data/

所有文件都是压缩文件。 Brown Corpus Wikipedia 中描述了数据格式.我不知道还能说什么。从那里事情应该是显而易见的。

编辑:如果你想要原始源数据，我认为那里有一些语料库有他们的数据。但是通常关键是让其他人进行采样。另外，请注意维基百科条目中的这一点:“每个样本都从文章或其他所选单元中的随机句子边界开始，并持续到 2,000 个单词后的第一个句子边界。”所以布朗语料库的数据基本上是随机的。即使您有原始文本，您也可能无法猜出它们在何处采样。

关于java - 我如何在 Java 中访问布朗语料库(又名 NLTK 之外)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30685404/

文章推荐： java - CollectionUtils.isNotEmpty() 是否比 null 检查更好？

文章推荐： javascript - 如何从 JavaScript 检测 HTTP 状态

文章推荐： java - java集合中元素比较的性能

搜寻专家

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 我如何在 Java 中访问布朗语料库(又名 NLTK 之外)