gpt4 book ai didi

hadoop - 将数据加载到HIVE中以支持前端应用程序

转载 作者:行者123 更新时间:2023-12-02 21:30:03 26 4
gpt4 key购买 nike

我们有一个计划将其转换为Hadoop的数据仓库应用程序。

目前,我们每天会收到20个提要,并将这些数据加载到MySQL数据库中。

随着数据量的增加,我们计划迁移到Hadoop以加快查询处理速度。

作为第一步,我们计划每天将数据而不是MySQL加载到HIVE中。

题:-
1.是否可以将类似于DWH应用程序的Hadoop转换为每天处理文件?
2.当我将数据加载到主节点中时,会自动同步吗?

最佳答案

这实际上取决于数据的大小。该问题有点复杂,但是通常您必须设计自己的管道。

  • 如果要分析原始日志,HDFS将是一个不错的选择。您可以使用Java,Python或Scala每天安排Hive作业,如果仍然需要一些MySQL数据,则可以使用Sqoop。
  • 在Hive中,您将必须创建要同步并在查询执行时可用的分区表。也可以计划创建分区。

  • 我建议使用Impala而不是Hive,因为它更可调,容错且更易于使用。

    关于hadoop - 将数据加载到HIVE中以支持前端应用程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34619970/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com