- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在Hive的HDFS上尝试一些简单的方法。
问题是当我运行“where子句”时查询未在运行map减少。但是,它为count(*)甚至map by子句运行map reduce。
以下是数据和查询结果:
创建外部表:
创建外部表testtab1(
ID STRING,组织STRING)
行格式定界
以“,”结尾的字段
存储为文本文件
位置'/ usr / ankuchak / testtable1';
简单选择*查询:
0:jdbc:hive2://>从testtab1选择*;
15/07/01 07:32:46 [main]:错误hdfs.KeyProviderCache:找不到具有密钥[dfs.encryption.key.provider.uri]的uri创建keyProvider!
好
+ --------------- + --------------- +-+
| testtab1.id | testtab1.org |
+ --------------- + --------------- +-+
|安库尔| IDC |
|用户| IDC |
|其他人| ssi |
+ --------------- + --------------- +-+
已选择3行(2.169秒)
计数(*)查询
0:jdbc:hive2://>从testtab1中选择count(*);
查询ID = ankuchak_20150701073407_e7fd66ae-8812-4e02-87d7-492f81781d15
职位总数= 1
启动工作1之1
编译时确定的reduce任务数:1
为了更改 reducer 的平均负载(以字节为单位):
设置hive.exec.reducers.bytes.per.reducer =
为了限制 reducer 的最大数量:
设置hive.exec.reducers.max =
为了设置恒定数量的 reducer :
设置mapreduce.job.reduces =
15/07/01 07:34:08 [HiveServer2-Background-Pool:Thread-40]:错误mr.ExecDriver:毛线
15/07/01 07:34:08 [HiveServer2-Background-Pool:线程40]:WARN mapreduce.JobResourceUploader:Hadoop命令行选项解析未执行。实现Tool接口(interface)并使用ToolRunner执行您的应用程序以对此进行纠正。
开始的工作= job_1435425589664_0005,跟踪网址= http://slc02khv:8088/proxy/application_1435425589664_0005/
杀死命令= / scratch / hadoop / hadoop / bin / hadoop作业-kill作业_1435425589664_0005
第1阶段的Hadoop作业信息:映射器数量:1; reducer 数量:1
15/07/01 07:34:16 [HiveServer2-Background-Pool:线程40]:警告mapreduce。计数器:组org.apache.hadoop.mapred.Task $ Counter已过时。请改用org.apache.hadoop.mapreduce.TaskCounter
2015-07-01 07:34:16,291第1阶段映射= 0%,减少= 0%
2015-07-01 07:34:23,831第1阶段映射= 100%,减少= 0%,累计CPU 1.04秒
2015-07-01 07:34:30,102第1阶段映射= 100%,减少= 100%,累计CPU 2.41秒
MapReduce累计CPU总时间:2秒410毫秒
结束的工作= job_1435425589664_0005
MapReduce作业启动:
阶段1:映射:1减少:1累积CPU:2.41秒HDFS读取:6607 HDFS写入:2成功
MapReduce花费的总CPU时间:2秒410毫秒
好
+ ------ +-+
| _c0 |
+ ------ +-+
| 3 |
+ ------ +-+
已选择1行(23.527秒)
按查询分组:
0:jdbc:hive2://>从org的testtab1组中选择org,count(id);
查询ID = ankuchak_20150701073540_5f20df4e-0bd4-4e18-b065-44c2688ce21f
职位总数= 1
启动工作1之1
未指定的缩减任务数。根据输入数据大小估算:1
为了更改 reducer 的平均负载(以字节为单位):
设置hive.exec.reducers.bytes.per.reducer =
为了限制 reducer 的最大数量:
设置hive.exec.reducers.max =
为了设置恒定数量的 reducer :
设置mapreduce.job.reduces =
15/07/01 07:35:40 [HiveServer2-Background-Pool:Thread-63]:错误mr.ExecDriver:毛线
15/07/01 07:35:41 [HiveServer2-Background-Pool:线程63]:WARN mapreduce.JobResourceUploader:Hadoop命令行选项解析未执行。实现Tool接口(interface)并使用ToolRunner执行您的应用程序以对此进行纠正。
开始工作= job_1435425589664_0006,跟踪URL = http://slc02khv:8088/proxy/application_1435425589664_0006/
杀死命令= / scratch / hadoop / hadoop / bin / hadoop作业-kill作业_1435425589664_0006
第1阶段的Hadoop作业信息:映射器数量:1; reducer 数量:1
15/07/01 07:35:47 [HiveServer2-Background-Pool:线程63]:警告mapreduce。计数器:组org.apache.hadoop.mapred.Task $ Counter已过时。请改用org.apache.hadoop.mapreduce.TaskCounter
2015-07-01 07:35:47,200第1阶段 map = 0%,减少= 0%
2015-07-01 07:35:53,494第1阶段映射= 100%,减少= 0%,累计CPU 1.05秒
2015-07-01 07:36:00,799第1阶段映射= 100%,减少= 100%,累积CPU 2.53秒
MapReduce累计CPU总时间:2秒530毫秒
结束的工作= job_1435425589664_0006
MapReduce作业启动:
阶段1:映射:1减少:1累积CPU:2.53秒HDFS读取:7278 HDFS写入:14成功
MapReduce花费的总CPU时间:2秒530毫秒
好
+ ------- + ------ +-+
|组织| _c1 |
+ ------- + ------ +-+
| IDC | 2 |
| ssi | 1 |
+ ------- + ------ +-+
已选择2行(21.187秒)
现在,简单的where子句:
0:jdbc:hive2://>从testtab1选择*其中org ='idc';
好
+ -------------- + --------------- +-+
| testtab1.id | testtab1.org |
+ -------------- + --------------- +-+
+ -------------- + --------------- +-+
未选择任何行(0.11秒)
如果您能为我提供一些指导,那将是很棒的。
如果您需要这方面的进一步信息,请告诉我。
问候,
安库尔
最佳答案
您最近的查询中正在发生 map 作业。因此,并不是 map 缩小没有发生。但是,应在您的上一个查询中返回一些行。这里的罪魁祸首是由于某种原因,它找不到值“idc”的匹配项。检查表并确保Ankur和user的组包含字符串idc。
尝试此操作以查看是否获得任何结果:
Select * from testtab1 where org rlike '.*(idc).*';
Select * from testtab1 where org like '%idc%';
关于hadoop - 配置单元未通过 “where”子句运行Map Reduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31164526/
我试图要求 test/unit 的新版本(即不是与 ruby 捆绑的版本) .根据 instructions我用 gem i test-unit 安装它.但是现在当我需要 test/unit我似乎
简短版本是: 我有一个 systemd 单元,我想在调用时检查脚本的返回代码: systemctl status service.service 长版本:我有一个 lsb init 脚本正是这样做的,
我正在使用反射动态创建一个类的实例,这工作正常,除非尝试通过单元测试执行此操作 - 我使用的是 MS 测试框架。 我收到熟悉的错误:“无法加载文件或程序集‘Assy’或其依赖项之一。系统找不到指定的文
我想知道测试网站“界面功能”的最佳实践是什么。 我对哪些方法可用于测试界面和动态生成的内容感兴趣。特别是,我很难弄清楚是否可以为需要用户交互的操作创建自动化测试,或者这是否只是浪费时间,我应该让一些
我有一个简单的 Python 服务,其中有一个无限执行某些操作的循环。在各种信号上,sys.exit(0) 被调用,这导致 SystemExit 被引发,然后如果可以的话应该进行一些清理。 在测试中,
我正在使用 OpenCV 2.4.2 这是 OpenCV 文档中的引文 C++: void HoughLinesP(InputArray image, OutputArray lines, doubl
忙于 C# 中的自动化测试用例,我们需要在每次测试后恢复数据库快照。问题是,当运行多个测试时它会失败,因为“其他用户正在使用数据库时无法更改数据库状态。” 我们使用 SqlConnection.Cle
我阅读了 C# 规范并用谷歌搜索了它,但一无所获。 我 99% 肯定 C# 中没有像单元命名空间指令这样的功能,但问题是:为什么?是否有惯用或技术原因? 这很方便,尤其是当我们的大部分文件都由单个命名
我目前正在尝试向我的应用程序(一个非常老的项目......评论说 iOS 2.0)添加单元测试(精确的应用程序测试)并且总是偶然发现 undefined symbols for architectur
我正在使用Delphi 7,并且有一个新单元要在我的项目中使用。我已经编译了新的。当我尝试通过将其添加到uses子句在项目中使用此单元时,出现错误,提示未找到.dcu文件。我还尝试将文件的完整路径放在
场景:我需要编写一个复杂的nHibernate查询,该查询将返回预计的DTO,但是我想使用TDD方法。该方法如下所示: public PrintDTO GetUsersForPrinting(int
您可以通过运行以下命令在事件 html 设置中显示 Jupyter 笔记本: $ jupyter nbconvert untitled.ipynb --to slides --post serve 有
如何在一个网站上拥有多个 AdSense 单元? Google 提供的唯一代码是按单位计算的。 (adsbygoogle = window.adsbygoogle || []).push({})
我刚刚开始为大量代码编写测试。有很多类依赖于文件系统,即读取 CSV 文件、读/写配置文件等。 当前测试文件存储在项目(这是一个 Maven2 项目)的 test 目录中,但由于多种原因该目录并不总是
我对 TDD 还很陌生,在单元测试方面也不是很老练,所以才有这个问题。我有这个用 PHP 编写的遗留函数 function foo(){ x = bar(); y = baz();
我创建了一个程序,在 Swing 窗口的一侧显示结果过滤选项,但默认情况下它们水平相邻显示,这浪费了我在 BorderLayout 的西侧分配的空间。我可以在构造函数或添加语句中传递任何内容来将它们堆
标题不好的借口:如果有人能更好地描述它,请做。 我有一个 WeakList类,它“基本上”是一个 List> (虽然不是字面意义上的派生自列表,但它应该对用户完全透明)。 现在的基本思想是“如果引用的
我正在尝试在 UITableView 上添加两个原型(prototype)单元。但是,我不知道如何验证是否能够为每个原型(prototype)“返回”正确的单元格。你们能帮我一下吗? func ta
我正在使用 CloudKit 作为数据库创建一个简单的待办事项列表应用程序。目前我可以添加和删除对象,但对编辑对象感到困惑。 编辑项目 Controller protocol EditItemCont
我正在针对以下任务训练 RNN:给定一个包含 30 个单词的序列,然后将该序列分类为二进制类。 在我的网络中拥有超过 30 个单元(LSTM、GRU 或普通 RNN)有好处吗?我在网上看到过很多例子,
我是一名优秀的程序员,十分优秀!