hadoop - 更好地从 Hive 或 Pig 中的平面文件读取？-6ren

hadoop - 更好地从 Hive 或 Pig 中的平面文件读取？

转载作者：可可西里更新时间：2023-11-01 15:57:47

25

4

无法在任何地方找到关于此的直接答案。我正在将一个传入的数据集连接到几个以前位于 Web 服务后面的 MySQL 表中的大表。我将表转储到 Hadoop 中的平面 CSV 文件，并使用 Pig 加载传入的数据集和表文件，并执行连接。

进展缓慢，因为有多个表文件要连接，而且文件本身非常大。我只是想在单个字段上加入 LEFT OUTER，没什么特别的。

所以，我的问题是，将 CSV 文件加载到 Hive 表中并在 Pig 中使用 HCatLoader 而不是仅加载 CSV 文件是否有任何性能优势？除了类似 SQL 的接口(interface)来查询表之外，Hive 似乎没有提供任何好处，当我只是将数据集加入整个事物时，这并不重要。

最佳答案

根据 Oreilly 的 Programming Pig(第 165 页):

Hive provides SQL, it is a better tool for doing traditional data analytics. Most data analysts are already familiar with SQL, and business intelligence tools expect to speak to data sources in SQL. Pig Latin is a better choice when building a data pipeline or doing research on raw data.

简而言之，Hive 用于更好的查询。 PIG 用于构建数据管道。 PIG over Hive 以优化查询。

如果您要在可能使用分区的情况下进行许多连接，则 PIG over Hive 非常有用。

如果您只想进行左连接，则可能不需要。然后再进一步查询分析Hive会更好。

阅读:difference b/w hive and pig和 also read this .

关于hadoop - 更好地从 Hive 或 Pig 中的平面文件读取？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41401438/

25

4

0

文章推荐： c++ - 关于根据 move 赋值和 move 构造函数实现 std::swap

文章推荐： java - sqoop导入java io异常: Mkdir failed to create a file

文章推荐： java - 附加到现有序列文件会覆盖内容

文章推荐： Hadoop 多节点集群，从属权限被拒绝

javascript - 将复杂对象转换为表格格式(平面)
我有一个对象: [ { TEAMGROUP: "AB", TEAMNAME: "TEAM1", SPRINTS: [ { ID: 1,
colors - 平面、半平面和交错格式之间有什么区别？
颜色模型和颜色空间之间的差异 RGB565 与 RGB888 有何不同任何建议链接 YUV vs RGB vs YCbCr。？最佳答案 RGB 是一种加法颜色模型，其中红色、绿色和蓝色强度以不同的组
c++ - GLSL无法编译没有插值的着色器(平面)
我正在从单个顶点/索引缓冲区绘制一个具有多个网格的完整对象，并且它们具有不同的纹理。因此，我想到将纹理 ID 与顶点一起从顶点着色器传递到片段着色器中的片段。问题是禁用插值。我正在使用 GLSL ve
android - 如何创建具有所需宽度和长度段数的网格/平面？
我有一个包含 40000 个 float 的数组，用于指定 map 上的高度级别。我想在 OpenGL ES 2.0 中创建一个网格/平面，为该网格中的每个顶点分配一个来自该数组的高度值，以便它们创建
glsl - 有符号距离函数 - 3D 平面
我真的很喜欢 IQ 的页面以及有关 SDF 的信息: ( https://www.iquilezles.org/www/articles/distfunctions/distfunctions.htm
qt - 平面 QPushButton，背景颜色不起作用
我创建了 QPushButton在带有此样式表的 Qt Designer 中: QPushButton#pushButton { background-color: #ffffff; } QP
Javascript - 平面 map 的解决方法
所以我正在寻找一些平面 map 的解决方法，因为它在 IE 上不起作用，我找到了这个:但我不太明白为什么它会起作用 var gadjets = [ {computers:['asus', 'hp'
scala - 平面 Actor 树
child Actor 会不会太多？例如，如果我有一个有 10000 个 child Actor 的 Actor ，与每个有 1000 个 child Actor 的 10 个 Actor 相比，这会
3d - 如何有效地旋转和平移 3D 平面
我有一个由法线 (n) 和距离 (d)(距原点)定义的平面。我想把它改造成一个新的系统。长路是这样的: 1) 将距离 (d) 与法线 (n) 相乘得到一个向量 (p) 2) 旋转 (R) 并平移 (
javascript - 期望体积结果时的 Threecsg 平面
问题: 从球体中减去立方体会得到一个结果，其中 z 轴保留体积，但 y 轴和 x 轴产生平面圆盘，如图所示。我不确定为什么球体在那些方面正在失去体积。我正在使用 threeCSG 的典型减法。代码:
c# - 从单个(平面)数据库查询创建复合对象的方法
我通过 SQL 查询从我们的 ERP 获取产品数据，由此返回的数据在大小级别非常平坦。一个产品有 3 个级别: 风格颜色尺寸一种款式有多种颜色，一种颜色有多种尺码。我创建了以下模型: publ
javascript - 平面 JSON 展开为具有多个父级的层次结构作为字符串
我正在尝试展开一些 json 数据。如果我像下面这样使用我的测试数据，一切正常! var data = [ { "title": 1, "parentids": [0] }, { "title
ios - 绘制 3D 平面
我希望使用 SceneKit 在 Swift 中的 3D 空间中绘制多个平面。具体来说，这些表面都将位于双曲面内。我以前从未绘制过自定义形状/对象，而且在尝试理解文档时我已经迷失了方向。关于在 3D
ios - ARKit 平面，上面有现实世界的物体
预先感谢您阅读我的问题。我对 ARKit 非常陌生，并且已经学习了几个教程，这些教程向我展示了如何使用平面检测以及如何为平面使用不同的纹理。这个功能真的很棒，但这是我的问题。玩家是否可以先将飞机放置在
java - 使用(平面)映射优于简单的空检查的优点？
我正在阅读下面的源代码，我想知道我到底为什么要使用平面图方式。正如我所看到的，与通过 if 语句进行简单的 null 检查相比，实例化了更多的对象，执行了更多代码，这将在第一个 null 时终止，而不
javascript - 平面 UI 复选框样式不起作用
我正在编写一个 Rails 应用程序并使用 Flat UI 进行样式设置。我目前正在将 flatui-rails gem 与 twitter-bootstrap-rails gem 结合使用。一切正常
c++ - 平面/射线交点与点/平面投影的区别
我在维基百科中找到了射线平面相交代码的解决方案，该解决方案有效，我只是在其中求解线性方程组。后来我找到了一些点到平面投影的代码，显然实现方式不同，并且在特定条件下也会产生不同的解决方案。但是，我并
javascript - 平面 UI 复选框样式在启动时不应用
我正在使用 http://designmodo.github.io/Flat-UI/ 中的扁平 UI 我复制了复选框示例页面中的所有文件和代码。但是我注意到该复选框并未显示为样式复选框，但在我单击初
javascript - 如何用图像绘制等 Angular 平面？
这个问题已经有答案了: True Isometric Projection with HTML5 Canvas (3 个回答) 已关闭 7 年前。我想创建一个等轴测图。该 map 存在等距矩形，如图
CSS 下拉菜单 + 平面 UI
http://designmodo.github.io/Flat-UI/ 我想创建一个 Css 下拉菜单，我已经完成了下拉部分，但是我似乎无法模拟转换，也不知道如何编写这些代码。这是我目前所知道的，在

首页

博学

6Ren·AI

商城

hadoop - 更好地从 Hive 或 Pig 中的平面文件读取？