gpt4 book ai didi

hadoop - StreamSet 能否用于将数据提取到本地系统?

转载 作者:可可西里 更新时间:2023-11-01 15:21:50 28 4
gpt4 key购买 nike

我们的团队正在探索 HDFS 到本地数据提取的选项。我们被建议使用 StreamSet,但团队中没有人对此有任何想法。谁能帮助我了解这是否符合我们将数据从 HDFS 提取到本地系统的要求?

只是一个额外的问题。
我在本地设置了 StreamSets。例如在本地 ip: xxx.xx.x.xx:18630 并且它在一台机器上工作正常。但是当我试图从网络上的其他机器访问这个 URL 时,它不起作用。而我的其他应用程序(如 Shiny-server 等)使用相同的机制运行良好。

最佳答案

是的 - 您可以使用 StreamSets 数据收集器的 Hadoop FS Standalone origin 将数据从 HDFS 读取到本地文件系统.不过,正如 cricket_007 在他的回答中提到的那样,您应该仔细考虑这是否是您真正想要做的,因为单个 Hadoop 文件很容易比您的本地磁盘大!

回答您的第二个问题,Data Collector 默认监听所有地址。 sdc.properties 配置文件中有一个 http.bindHost 设置,您可以使用它来限制 Data Collector 监听的地址,但默认情况下它被注释掉了。

您可以使用 netstat 检查 - 这是我在我的 Mac 上看到的,Data Collector 监听所有地址:

$ netstat -ant | grep 18630
tcp46 0 0 *.18630 *.* LISTEN

输出中 18630 前面的通配符 * 表示 Data Collector 将接受任何地址上的连接。

如果您直接在您的机器上运行 Data Collector,那么最有可能的问题是防火墙设置。如果您在 VM 或 Docker 上运行 Data Collector,则需要查看您的 VM/Docker 网络配置。

关于hadoop - StreamSet 能否用于将数据提取到本地系统?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51537750/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com