gpt4 book ai didi

NLP:构建(小型)语料库,或 "Where to get lots of not-too-specialized English-language text files?"

转载 作者:行者123 更新时间:2023-12-04 16:50:23 26 4
gpt4 key购买 nike

有没有人建议在哪里可以找到用于小型语料库的日常英语文本的文件或集合?我一直在使用 Gutenberg Project 书籍作为工作原型(prototype),并希望融入更多现代语言。一个 recent answer这里间接指向一个伟大的archive of usenet movie reviews ,这是我没有想到的,而且非常好。对于这个特定的程序,技术用户网文件或编程邮件列表会使结果倾斜并且难以分析,但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的东西都会非常有帮助。此外,非常感谢没有太多标记的部分或可下载的研究语料库,或者一些用于查找适当的维基百科文章子集或任何其他想法的启发式方法。

(顺便说一句,我是一个下载的好公民,使用故意缓慢的脚本,对托管此类 Material 的服务器没有要求,以防你认为将我指向一些巨大的东西存在道德风险。)

更新 : 用户 S0rin 指出维基百科不要求爬网并提供 this export tool反而。古腾堡计划有一个指定的政策 here ,底线,尽量不要爬行,但如果你需要:“配置你的机器人在请求之间至少等待 2 秒。”

更新 2 维基百科转储是要走的路,感谢指出它们的回答者。我最终从这里使用了英文版本:http://download.wikimedia.org/enwiki/20090306/ ,和大约一半大小的西类牙垃圾场。它们是一些需要清理的工作,但非常值得,并且它们在链接中包含许多有用的数据。

最佳答案

  • 使用 Wikipedia dumps
  • 需要大量清理
  • 查看 nltk-data 中是否有任何内容帮助你
  • 语料库通常很小
  • Wacky人们有一些免费的语料库
  • 已标记
  • 你可以使用他们的工具包搜索你自己的语料库
  • Europarl是免费的,并且是几乎所有学术 MT 系统的基础
  • 口语,翻译
  • Reuters Corpora是免费的,但仅在 CD
  • 上可用

    您总是可以拥有自己的,但请注意:HTML 页面通常需要大量清理,因此请限制自己使用 RSS 提要。

    如果您在商业上这样做, LDC可能是一个可行的替代方案。

    关于NLP:构建(小型)语料库,或 "Where to get lots of not-too-specialized English-language text files?",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/137380/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com