gpt4 book ai didi

hadoop - 获取 Hive 插入的作业统计信息

转载 作者:可可西里 更新时间:2023-11-01 16:14:19 25 4
gpt4 key购买 nike

在将 Hive 0.10 与 Cloudera CHD4.x 结合使用时,始终可以通过读取命令输出来查看向特定表中插入了多少行。该行看起来像:

Loaded 1234 rows into tablename

虽然不理想(查询管理器没有编程接口(interface)),但它是插入数据量的合理指示。但是,在带有 Cloudera CDH 5.1 的 Hive 0.13 中,该行不会出现在命令输出中。我也不知道如何从查询管理器中获取导入计数。

如何找出给定查询向给定表中插入了多少行?我想知道访问 Hadoop 计数器是否可以做到这一点,但我找不到有关 Hive 如何使用它们的任何信息。 Thrift 界面中似乎没有任何内容允许访问这些统计信息。

基本上我不想对我的源数据发出 SELECT COUNT(*) 只是为了查明有多少行被处理。

最佳答案

我现在正在尝试自己解决这个问题。据推测,工作计数器被重构为 HIVE-4518 的一部分。 .这似乎是功能上的倒退,因为获取和显示行数的代码仍然存在,但它永远不会打印,因为没有计数器可以从中获取数字。

一个选项是打开 hive.stats.autogather,它将返回统计信息,但它可能有也可能没有行数,具体取决于您的查询。

编辑:提交的票证 HIVE-9023描述错误。

关于hadoop - 获取 Hive 插入的作业统计信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25160347/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com