gpt4 book ai didi

database - 从哪里可以获得可用于免费软件的频率排序词典?

转载 作者:搜寻专家 更新时间:2023-10-30 22:03:08 24 4
gpt4 key购买 nike

我需要一个压缩程序的频率分类字典(许可或 GPLv3 兼容许可),但完全不知道从哪里获得此类许可下的字典(所有都有丢失或错误的版权声明)。有没有人能推荐一下去哪里买?我找了一段时间,但我唯一的选择似乎是创建我自己的,我怀疑使用电子书的有效质量。 (它不能完全代表所有英语,更不用说现代英语了,我的目标。)

PS:大约 200,000-50,000 个单词是一个不错的目标。巨大的文件不是一个好主意。

最佳答案

您想要的是基于大量具有代表性的英文文本构建的一元分布。 “unigram 分布”是您所说的“频率词典”的正式术语。

Google 在许可下发布了大量 ngram。

参见 http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html .

http://books.google.com/ngrams/datasets .

如果您不需要所有那些晦涩难懂的词,那么只需将分发分成您想要的内容即可。

至于许可,甚至 FSF 也表示 GPL 不适用于字典。它们不是“来源”。因此,这里的 CC 许可证非常适合合并到任何地方。

如果您不关心具有完全代表性的数据,那么下载维基百科转储和用于提取文本的 Ruby 工具,并进行您自己的 unigram 分发。

无论您选择什么,如果您想要有用的结果,您将使用大量数据

关于database - 从哪里可以获得可用于免费软件的频率排序词典?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7781788/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com