hadoop - Hive 需要很长时间才能启动 hadoop 作业-6ren

hadoop - Hive 需要很长时间才能启动 hadoop 作业

转载作者：可可西里更新时间：2023-11-01 15:38:27

28

4

我是 Hadoop 和 Hive 的新手。我正在使用 Hive 与 Hadoop 的集成来执行查询。当我提交任何查询时，控制台上会显示以下日志消息:

Hive history file=/tmp/root/hive_job_log_root_28058@hadoop2_201203062232_1076893031.txt Total MapReduce jobs = 1 Launching Job 1 out of 1 Number of reduce tasks determined at compile time: 1 In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer= In order to limit the maximum number of reducers: set hive.exec.reducers.max= In order to set a constant number of reducers: set mapred.reduce.tasks= Starting Job = job_201203062223_0004, Tracking URL = http://:50030/jobdetails.jsp?jobid=job_201203062223_0004 Kill Command = //opt/hadoop_installation/hadoop-0.20.2/bin/../bin/hadoop job -kill job_201203062223_0004 Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1 2012-03-06 22:32:26,707 Stage-1 map = 0%, reduce = 0% 2012-03-06 22:32:29,716 Stage-1 map = 100%, reduce = 0% 2012-03-06 22:32:38,748 Stage-1 map = 100%, reduce = 100% Ended Job = job_201203062223_0004 MapReduce Jobs Launched: Job 0: Map: 1 Reduce: 1 HDFS Read: 8107686 HDFS Write: 4 SUCCESS Total MapReduce CPU Time Spent: 0 msec OK

以粗体显示的文本启动了一个 hadoop 作业(我就是这么认为的)。开始工作需要很长时间。一旦这条线被执行，map reduce 操作就会迅速执行。以下是我的问题:

有什么方法可以更快地启动 hadoop 作业。是否可以跳过此阶段？
“Kill command”的值从何而来(粗体字)？

如果需要任何输入，请告诉我。

最佳答案

1) 开始工作 = job_201203062223_0004，跟踪 URL = http://50030/jobdetails.jsp?jobid=job_201203062223_0004

ANS:你的 HQL 查询 > 翻译成 hadoop 作业 > hadoop 会做一些后台工作(比如规划资源、数据局部性、处理查询所需的阶段、启动配置、作业、taskids 生成等)> 启动映射器 > sort && shuffle > reduce (aggregation) > 结果到 hdfs 。

上面的流程是hadoop job生命周期的一部分，所以没有跳过任何..

http://namenode:port/jobtracker.jsp --- 你可以通过 job-id 查看你的工作状态:job_201203062223_0004，(监控)

2) 终止命令 = HADOOP_HOME/bin/hadoop job -kill job_201203062223_0004

回答:在启动您的映射器之前，您将看到这些行，因为 hadoop 适用于大数据，这可能需要或多或少的时间，具体取决于您的数据集大小。所以在任何时候，如果你想结束这份工作，求助热线。对于任何 hadoop-job 都会显示这一行，显示这样的信息行不会花费太多时间。

关于您的评论的一些插件:

Hive 不适用于低延迟作业，我的意思是不可能立即获得结果。(请检查 apache.hive 中的配置单元用途)
Hive 中存在启动开销(请参阅 q1s - hadoop 将执行一些后台工作)，这是无法避免的。
即使对于小规模的数据集，这些启动在 hadoop 中也存在。

PS :如果您真的希望及时得到快速结果(请引用 shark )

关于hadoop - Hive 需要很长时间才能启动 hadoop 作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21375695/

28

4

0

文章推荐： hadoop - 我如何使用 apache mahout 实现 LDA？

文章推荐： hadoop - 如何在 Hive CDH 中创建 ORC 文件？

文章推荐： c++ - Visual Studio 中的 long long 值

out-of-memory - 启动 minishift 或占用大量内存时，启动 OpenShift 集群永远不会结束
每当我运行命令以将 Virtualbox 驱动程序启动 Minishift 到操作系统主机时，它都需要一段疯狂的时间，而且它永远不会结束。有时我什至收到有关达到存储限制的错误消息。不知道是不是描述h
node.js - 使用 docker 启动 npm 启动？
您好，我正在使用 npm 运行一个基本的 React 项目，我正尝试在 docker 容器中启动它。但是我实际上无法让项目运行。我的 dockerfile 看起来像这样: FROM node:7.8.
linux - 无法从 SSH 启动 MonoGame，但可以从 GUI 启动
所以我想从我的 SSH 终端开始游戏。这真的很奇怪，当我直接从 Linux GUI 执行此操作时，它可以工作。但是当我使用 SSH 客户端进行远程连接时，它就崩溃了。似乎与我的显示驱动程序有关。 U
android - 从 WallpaperService 启动 Intent 或向 WallpaperService 启动 Intent
我有一个显示图像的动态壁纸。我在 Activity 中更改了该图像。然后我需要通知动态壁纸，以便它知道重新加载资源。 Intent 似乎是完美、简单的解决方案: Intent intent = new
java - 可以从 Eclipse (STS) 启动 Spring Boot，但不能从 CLI 启动
我有一个似乎无法解决的问题。我在 Boot Dashboard 中使用 STS 3.9.2 从 Eclipse (Oxygen) 启动 Spring Boot 应用程序没有任何问题: 但是，当我尝试从
python - 在 CMD "python"启动 Python 3.3， "py"启动 Python 2.7，我该如何更改？
全新的 Python，在我开始摆弄东西之前先设置和安装东西。我的理解是 Python 2.7 和 Python 3.3 之间存在一些显着差异/不兼容，尽管这两个版本都得到了很好的使用，所以我认为最好安
jQuery 启动
在使用了很长时间的 jQuery 之后，我有一个问题，我正在使用 jQuery 模式(样式)编写一个简单的代码， (function(window, undefined) { var jQu
Spring 启动@Configurable
我正在尝试在 spring boot 应用程序下的非 spring 托管类中配置 Autowired。我在 tomcat 服务器下部署的 Web 应用程序下成功运行了这个。但是当我想在 spring
haskell - 启动 xmonad
我对 xmonad 完全陌生，但我想开始使用它来提高我的工作效率。这是我一直在使用的指南(我使用的是 Apple OS X Snow Leopard) http://xmonad.org/tour.
Spring 启动-管理交易和多个数据源
我试图将Spring Boot指南中的Managing Transactions示例扩展到两个数据源，但是@Transaction注释似乎仅对其中一个数据源有效。在“Application.java
Conemu 启动，任务打开多个选项卡
conEmu 有没有办法默认打开多个不同的选项卡？我看到这个页面解释了如何使用 splits , 我意识到我可以按 Ctrl + T, 1, Enter，但我希望有一种方法可以自动执行此操作! "%
jquery - SignalR - 启动
我正在寻找快速而肮脏的答案。我当时脑子一片空白，盯着屏幕看了 12 个小时以上，我想我中枪了。我想做一个简单的 SignalR 应用程序作为教程。我找到了这个example ，但我不断收到票证未定义
powershell - 启动/停止特定订阅下的所有虚拟机
我正在使用 Azure Powershell cmdlet 来启动/停止 VM。 Start-AzureVM [-ServiceName] [-Name] [ ] Stop-AzureVM [-S
iis - 启动/停止iis和mssql的powershell脚本代码
我想使用Powershell脚本代码启动/停止iis和mssql 意味着当我运行ps脚本时，我想启动/停止iis和mssql 我在网上搜索了它，发现了一些代码，但按照我的要求无法正常工作码: $ii
liferay - 启动 liferay
我在 liferay 工作。我们在我们的项目中使用一个模块来创建 liferay 主题。我使用命令 ant -Ddeploy.war=true 将它部署在服务器中。 war 文件在 liferay 部
ipython - 启动 IPython
我想在已安装 Python 2.7 的 Windows XP 计算机上运行 IPython(版本 0.12)。我通过 Windows 二进制安装程序安装，但安装后 IPython 没有显示在菜单中，
docker - 启动+卷挂载后在docker容器内自动运行命令
我从创建了自己的简单图片。 FROM python:2.7.11 RUN mkdir /extra/later/ \ && mkdir /yyy 现在，我可以执行以下步骤: docker run
javascript - 启动/停止脚本以刷新页面
$(document).ready(function () { setTimeout(function() { window.location.reload(); }, 2000); // 2
javascript - OpenWeatherMap 启动
我刚刚创建了一个帐户 OpenWeatherMap 我想通过城市 ID API 调用获取当前位置的天气: http://api.openweathermap.org/data/2.5/weather?
ios - 启动 Storyboard中的图像未更新
我注意到，如果我更改 xcasset 中的图像，启动 Storyboard不会更新。例如，假设您的启动 Storyboard中有一个 UIImage View ，其中包含一个名为“logo”的蓝色图

首页

博学

6Ren·AI

商城

hadoop - Hive 需要很长时间才能启动 hadoop 作业