gpt4 book ai didi

java - 我如何在 Java 中访问布朗语料库(又名 NLTK 之外)

转载 作者:搜寻专家 更新时间:2023-11-01 01:25:45 26 4
gpt4 key购买 nike

我正在尝试编写一个在 Java 中使用自然语言词性的​​程序。我一直在 Google 上搜索,但没有找到整个 Brown 语料库(或另一个标记词语料库)。我一直在寻找我不感兴趣的 NLTK 信息。我希望能够将数据加载到 Java 程序中并总结出现的单词(以及它们成为词性的可能性百分比)。

不想使用像斯坦福那样的 Java 库,我想自己玩弄语料库数据。

最佳答案

这是布朗语料库下载页面的链接:http://www.nltk.org/nltk_data/

所有文件都是压缩文件。 Brown Corpus Wikipedia 中描述了数据格式.我不知道还能说什么。从那里事情应该是显而易见的。

编辑:如果你想要原始源数据,我认为那里有一些语料库有他们的数据。但是通常关键是让其他人进行采样。另外,请注意维基百科条目中的这一点:“每个样本都从文章或其他所选单元中的随机句子边界开始,并持续到 2,000 个单词后的第一个句子边界。”所以布朗语料库的数据基本上是随机的。即使您有原始文本,您也可能无法猜出它们在何处采样。

关于java - 我如何在 Java 中访问布朗语料库(又名 NLTK 之外),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30685404/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com