gpt4 book ai didi

data-mining - 从数据挖掘开始

转载 作者:行者123 更新时间:2023-12-05 00:02:59 26 4
gpt4 key购买 nike

我已经开始学习数据挖掘,并希望用 C++/Java 创建一个小项目,它允许我利用数据库,比如来自 twitter 的数据库,然后发布一组特定的结果(例如,提要上的所有新闻项目)。我想知道怎么办?我应该从哪里开始?

最佳答案

这是一个非常广泛的问题,因此很难回答。这里有一些要考虑的事情:

  • 你要去哪里获取数据?您提到了 twitter,但您仍然需要以某种方式收集数据。那里可能有用于收听 Twitter 流的库,或者如果有人出售数据,您可能可以购买数据。
  • 你要在哪里存储数据?根据您将拥有多少以及您打算用它做什么,传统的关系数据库可能是也可能不是最合适的。使用支持开箱即用的运行 mapreduce 作业的东西可能会更好。

  • 基于这些问题的答案,编程语言和库的选择将更容易做出。

    如果您真的很喜欢 Java,那么我认为 Hadoop集群可能是您想要开始的。它支持用Java编写mapreduce作业,并作为其他系统的有效平台,如 HBase ,面向列的数据存储。

    如果您的数据相当规则(也就是说,从一个记录到下一个记录的结构变化不大),也许 Hive会更合适。使用 Hive,您可以编写类似 SQL 的查询,仅将数据文件作为输入。我没用过 Mahout ,但我知道它的机器学习能力适合数据挖掘任务。

    这些只是想到的一些想法。有很多选择,在它们之间进行选择与您试图解决的特定问题和您自己的个人品味一样重要。

    关于data-mining - 从数据挖掘开始,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7411715/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com