gpt4 book ai didi

r - 如何制作 1 亿条推文的 R tm 语料库?

转载 作者:可可西里 更新时间:2023-11-01 14:10:52 28 4
gpt4 key购买 nike

我想使用 R 的分布式计算 tm 包(称为 tm.plugin.dc)制作一个包含 1 亿条推文的文本语料库。这些推文存储在我笔记本电脑上的一个大型 MySQL 表中。我的笔记本电脑很旧,所以我使用的是在 Amazon EC2 上设置的 Hadoop 集群。

tm.plugin.dc documentation from CRAN表示目前仅支持 DirSource。该文档似乎表明 DirSource 每个文件只允许一个文档。我需要语料库将每条推文视为文档。我有 1 亿条推文——这是否意味着我需要在我的旧笔记本电脑上制作 1 亿个文件?这似乎过分了。有没有更好的办法?

到目前为止我尝试了什么:

  1. 将 MySQL 表的文件转储为单个(大量).sql 文件。将文件上传到 S3。将文件从 S3 传输到集群。使用 Cloudera 的 Sqoop 工具将文件导入 Hive。怎么办?我不知道如何让 DirSource 与 Hive 一起工作。

  2. 在我的笔记本电脑上将每条推文制作成 XML 文件。但是怎么办?我的电脑很旧,不能很好地完成这项工作。 ... 如果我能克服这个问题,那么我会:将所有 1 亿个 XML 文件上传到 Amazon S3 中的一个文件夹。将 S3 文件夹复制到 Hadoop 集群。将 DirSource 指向该文件夹。

最佳答案

制作一个包含 1 亿条推文的巨大 HDFS 文件,然后使用标准 R' tm 包处理它们不是更容易和更合理吗?

在我看来,这种方法更自然,因为 HDFS 是为大文件和分布式环境开发的,而 R 是出色的分析工具,但没有并行性(或受限)。您的方法看起来像是将工具用于并非为...开发的东西......

关于r - 如何制作 1 亿条推文的 R tm 语料库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16388495/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com