gpt4 book ai didi

hadoop - 更好地从 Hive 或 Pig 中的平面文件读取?

转载 作者:可可西里 更新时间:2023-11-01 15:57:47 25 4
gpt4 key购买 nike

无法在任何地方找到关于此的直接答案。我正在将一个传入的数据集连接到几个以前位于 Web 服务后面的 MySQL 表中的大表。我将表转储到 Hadoop 中的平面 CSV 文件,并使用 Pig 加载传入的数据集和表文件,并执行连接。

进展缓慢,因为有多个表文件要连接,而且文件本身非常大。我只是想在单个字段上加入 LEFT OUTER,没什么特别的。

所以,我的问题是,将 CSV 文件加载到 Hive 表中并在 Pig 中使用 HCatLoader 而不是仅加载 CSV 文件是否有任何性能优势?除了类似 SQL 的接口(interface)来查询表之外,Hive 似乎没有提供任何好处,当我只是将数据集加入整个事物时,这并不重要。

最佳答案

根据 Oreilly 的 Programming Pig(第 165 页):

Hive provides SQL, it is a better tool for doing traditional data analytics. Most data analysts are already familiar with SQL, and business intelligence tools expect to speak to data sources in SQL. Pig Latin is a better choice when building a data pipeline or doing research on raw data.

简而言之,Hive 用于更好的查询。 PIG 用于构建数据管道。 PIG over Hive 以优化查询。


如果您要在可能使用分区的情况下进行许多连接,则 PIG over Hive 非常有用。

如果您只想进行左连接,则可能不需要。然后再进一步查询分析Hive会更好。

阅读:difference b/w hive and pigalso read this .

关于hadoop - 更好地从 Hive 或 Pig 中的平面文件读取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41401438/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com