gpt4 book ai didi

hadoop - Hadoop数据提取

转载 作者:行者123 更新时间:2023-12-02 19:57:36 25 4
gpt4 key购买 nike

我正在尝试创建一个可以访问Hadoop并将数据提取到本地Windows计算机的进程。我在ODBC上成功创建了,并且能够测试连接。进一步研究发现,我需要使用Microsoft Hive odbc,但是我无法在连接上获得成功的测试。我愿意使用不同的工具,但是希望获得一些关于完成我要尝试的最佳方法的意见。我要查找的数据也存在于ftp服务器上,并已加载到Hadoop,我可以从ftp服务器上获取它,但宁愿从Hadoop中提取它。我是Hadoop的新手,我已经研究和阅读了,但是找不到解决方案。我知道解决方案在那里,我只是没有在正确的地方看,有人可以指出正确的方向吗?

最佳答案

hits Hadoop and extracts data to my local windows machine



第一个建议:Apache Spark

I successfully created on ODBC and was able to test the connection



Hadoop不提供ODBC ... Hive提供

Researching further I found that I needed to use Microsoft Hive odbc



您的数据在Azure中吗?据我所知,这是您使用Microsoft驱动程序的唯一原因

would like some input on the best way to accomplish what I am trying to do



尚不清楚...到目前为止,您已经提到了SQL工具,无法通过ODBC访问...

如果您将数据存储在Hive中,则JDBC / ODBC可以正常工作,但是,如果您决定在Hadoop内的YARN集群上运行它,Spark会更快。

I could get it from the ftp server but would rather pull it from Hadoop



就个人而言,我不建议您从Hadoop获得它
  • Hadoop(更准确地说是HDFS)不能替代FTP
  • 如果您的文件“足够小”,可以在FTP内正常存储,则没有理由将它们提取到HDFS,因为HDFS已优化为可以处理相当大的文件。
  • 您是hadoop的新手,建议您可以轻松拉出FTP文件。

  • 第二个建议:如果您对使用Hadoop生态系统中的工具(而不是显式地使用HDFS)感到固执,请尝试提供 Apache NifiGetFTP processor项目。

    关于hadoop - Hadoop数据提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46043491/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com