gpt4 book ai didi

hadoop - 使用Hadoop将非结构化数据转换为结构化数据

转载 作者:行者123 更新时间:2023-12-02 21:47:05 25 4
gpt4 key购买 nike

我想将非结构化数据转换为结构化数据,以便于进行数据分析,因此我想知道PIG或HIVE是最好的。如果不能,则可以使用哪个其他Hadoop工具?如何使用?

最佳答案

以我的经验,最简洁但静态类型化且非常灵活的是缩放。它功能强大,简洁而实用。

Scalding是位于Cascading之上的一个开源Twitter项目。级联位于Hadoop之上。级联的作用是采取用户定义的阶段,然后神奇地将其“级联”为尽可能少的MapReduce阶段。

该页面几乎证明了扩展是最好的Hadoop API:

https://github.com/twitter/scalding/wiki/Rosetta-Code

现在,Spark(从技术上讲不是Hadoop技术,实际上要好得多)现在有了一个神奇的JsonRDD-您为其提供一个JSON文件,它将神奇地制定出该方案。

关于hadoop - 使用Hadoop将非结构化数据转换为结构化数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24261054/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com