作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在有效地尝试解决与此问题相同的问题:
Finding related words (specifically physical objects) to a specific word
减去单词代表物理对象的要求。答案和编辑过的问题似乎表明,使用维基百科文本作为语料库构建 n-gram 频率列表是一个好的开始。在我开始下载庞大的维基百科转储之前,有谁知道这样的列表是否已经存在?
PS如果上一个问题的原始海报看到这个,我很想知道你是如何解决这个问题的,因为你的结果看起来很棒:-)
最佳答案
Google has a publicly available TB n-garam 数据库(最多 5 个)。
您可以订购 6 张 DVD 或查找托管它的 Torrent。
关于nlp - 寻找取自维基百科的 n-gram 数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2325210/
我是一名优秀的程序员,十分优秀!