gpt4 book ai didi

Hadoop :Approach to load Local xml files from Share location to Hive

转载 作者:可可西里 更新时间:2023-11-01 16:34:00 25 4
gpt4 key购买 nike

我的要求是将不同来源收集到网络共享文件夹中的 XML 文件加载到 Hive 中。我需要确认要遵循的方法。

根据我的理解,我必须1.首先将所有文件加载到HDFS2. 然后使用 Mapreduce 或 sqoop 将 xml 文件转换为所需的表,然后我必须将它们加载到 Hive 中。

如果有更好的方法,请给我建议。

最佳答案

处理和读取 XML 文件

Mahout 具有 XML 输入格式,请参阅下面的博客文章了解更多信息

https://github.com/apache/mahout/blob/ad84344e4055b1e6adff5779339a33fa29e1265d/examples/src/main/java/org/apache/mahout/classifier/bayes/XmlInputFormat.java

http://xmlandhadoop.blogspot.com.au/2010/08/xml-processing-in-hadoop.html

Pig 有 XMLLoader

http://pig.apache.org/docs/r0.7.0/api/org/apache/pig/piggybank/storage/XMLLoader.html

在使用上述任何方法处理后,您可以推送到 Hive 位置。

谢谢

关于Hadoop :Approach to load Local xml files from Share location to Hive,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15583660/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com