gpt4 book ai didi

java - AWS 的学校数据挖掘项目怎么样?

转载 作者:太空宇宙 更新时间:2023-11-04 08:47:46 26 4
gpt4 key购买 nike

我必须做一个数据挖掘科目的类项目。我的主题是挖掘 stackoverflow 的数据来寻找热门话题。

所以,我已经从here下载了数据但数据集太大(posts.xml 大小为 3GB),我无法在我的机器上处理它。

那么,您认为使用 AWS 进行数据处理是一个好的选择还是不值得?

我之前没有 AWS 经验,那么 AWS 如何帮助我完成学校项目?你会怎么做?

更新1

所以,我的数据处理将分三个阶段:

  1. 将 XML(来自 so.com 转储)转换为 .ARFF(用于 weka jar),
  2. 使用 weka 中的算法挖掘数据,
  3. 将输出转换为 GraphML 格式,该格式将由 prefuse 库读取以进行可视化。

那么,AWS 在这里适合什么?我支持 AWS 中有两个功能可以帮助我:

  1. EC2 和
  2. 弹性MapReduce,
    但我不确定mapreduce如何工作以及如何在我的项目中使用它。我可以吗?

最佳答案

您可以将 EC2(您将用于进行实际计算的 AWS 部分)视为一种以编程方式或通过简单 Web 界面租用计算机的方式。如果您需要大量机器并且打算在短时间内使用它们,那么 AWS 可能适合您。然而,没有 Elixir 。您仍然需要选择正确的软件来安装在它们上,将数据加载到 EBS 卷或 S3 中以及所有其他无聊的细节。

另请注意,EC2 实例和存储相对昂贵。如果您实际拥有该机器/磁盘并使用了例如 3 年,则准备好支付 5-10 倍的费用。

关于您的问题,我真诚地怀疑现代计算机是否无法处理 3 GB 的 xml 文件。事实上,我刚刚在我的工作站上的 SOLR 中索引了所有堆栈溢出的 posts.xml,一切都很顺利。您使用的是类似 SAX 的解析器吗?如果没有,这对您的帮助将超过所有云服务的总和。

关于java - AWS 的学校数据挖掘项目怎么样?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3995000/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com