gpt4 book ai didi

hadoop - 如何将多个 xls 文件中的 xls 数据加载到配置单元中?

转载 作者:可可西里 更新时间:2023-11-01 15:05:37 26 4
gpt4 key购买 nike

我正在学习使用 Hadoop 执行大数据相关操作。

我需要对拆分为 8 个 xls 文件的数据集集合执行一些查询。每个 xls 文件都有多个工作表,查询只涉及其中一个工作表。

数据集可以在这里下载:http://www.census.gov/hhes/www/hlthins/data/utilization/tables.html

我没有为我的任务使用任何商业发行版的 hadoop,只是在 VmWare 中设置了一个主虚拟机和一个从虚拟机,其中包含 Hadoop、Hive 和 Pig。

我是 Hadoop 和大数据的新手,所以如果有人能指导我如何进一步进行,我将不胜感激。

如果您需要有关查询的信息或其他任何信息,请告诉我。

谢谢。

最佳答案

在 hive 中,您不能像处理 txt 或 csv 文件那样直接从 xls 将数据加载到表中。

你有两个选择:

  1. 编写一个应用程序(例如 Java)来读取 xls 文件并将它们转换为可以直接加载到配置单元中的文本或 csv 文件。

  1. 您可以创建您自己提供的 serde(序列化器或反序列化器)来解析要加载到表中的 xls 数据。

两者各有利弊,但如果您打算使用与 HIVE 交互的应用程序进行加载、查询、转换等。您可以选择选项 1。但是,如果您打算通过脚本/批处理等方式进行操作,则可以选择选项 2。

关于hadoop - 如何将多个 xls 文件中的 xls 数据加载到配置单元中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29429679/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com