gpt4 book ai didi

hadoop - 将每个系统设置为数据节点并从每个系统获取数据

转载 作者:行者123 更新时间:2023-12-02 21:27:47 25 4
gpt4 key购买 nike

如果hadoop和HDFS是我的初学者,

  • 局域网中有5台服务器连接
  • 每个服务器都有带有不同数据的日志文件

  • 问题是这个
  • 我需要使用Spark处理所有日志文件。
  • 我需要加载所有日志文件以触发和处理。
  • 我有个想法要让hdfs集群,就像每个服务器都作为从服务器一样(每个
    一个作为从属)并请求每个从属并获取日志文件和
    加载 Spark 。

  • 我是对的还是有更好的方法或更好的技术。

    最佳答案

    假设有100个日志文件,每个节点在本地文件系统中有20个日志文件。您的问题是我应该全部加载100个 Spark 吗?

    在运行spark之前,您需要将本地文件系统中的文件加载到HDFS 中(如果文件位于其他节点中,则可以使用SSH或其他方式加载它们)。然后,执行您的spark程序,指定100个日志文件的HDFS位置。

    典型场景为步骤:
    假设5个服务器(每个20个)中有100个日志文件,并且5个服务器是hadoop集群:

    步骤1:将文件加载到HDFS中。从所有5台服务器传播hdfs load命令。此时,当您尝试 hdfs dfs -ls / path / to / logfiles 时,应该拥有全部100个文件

    步骤2:执行Spark程序,指向此/ path / to / logfiles位置。

    希望能帮助到你。

    关于hadoop - 将每个系统设置为数据节点并从每个系统获取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35358120/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com