gpt4 book ai didi

apache-spark - 将数据从HDFS发送到特定计算机

转载 作者:行者123 更新时间:2023-12-02 22:02:41 25 4
gpt4 key购买 nike

我在HDFS中存储了一个大文件,在最后一列中有一个机器地址,我想将每一行发送到ap地址并将其存储在文本文件中(在本地文件系统上而不是HDFS上)我该怎么办?我找不到在 Spark 或Hadoop中做到这一点的方法。

输入文件的示例:

attr1  attr2 ..attrN  192.168.40.5
attr1 attr2 ..attrN 192.168.40.19

最佳答案

我没有找到使用hadoop或spark的方法,因为您无法告诉那些框架将数据发送到哪里,但是我找到了一种获取所需结果的方法,其步骤如下所示:

  • 将字符串RDD转换为key / val RDD,其中key为ip,然后按key分组。
  • 将每个项目保存在HDFS上的单独文件中(此link会有所帮助)
  • 创建一个python脚本,该脚本使用parallel ssh为每台机器
  • 执行带有适当参数的 hadoop fs -copyToLocal

    关于apache-spark - 将数据从HDFS发送到特定计算机,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51133878/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com