gpt4 book ai didi

hadoop - Hive与函数一起使用时不返回任何值

转载 作者:行者123 更新时间:2023-12-02 21:03:58 25 4
gpt4 key购买 nike

我对 hive 壳有一个奇怪的问题。我使用Apache原始软件包创建了Hadoop系统。我用tez。

为了测试系统,我毫无问题地将NY出租车数据加载到了 hive 中。数据集大约有1100万行。如果我确实在 hive 壳中选择台架,那么它正在工作。如果我使用这样的功能

select count(*) from yellow;

要么
select sum(trip_distance) from yellow where trip_distance is not null;

该过程运行没有任何问题,但仅返回OK。如果我在spark-sql中执行相同的操作,则会得到答案。另外,如果我按语句分组,则结果是相同的。

该表的定义是
CREATE TABLE `default.yellow` ( `VendorID` int , `tpep_pickup_datetime` timestamp , `tpep_dropoff_datetime` timestamp , `passenger_count` bigint , `trip_distance` float , `pickup_longitude` float , `pickup_latitude` float , `RatecodeID` bigint , `store_and_fwd_flag` string , `dropoff_longitude` float , `dropoff_latitude` float , `payment_type` bigint , `fare_amount` int , `extra` float , `mta_tax` float , `tip_amount` int , `tolls_amount` bigint , `improvement_surcharge` float , `total_amount` float ) COMMENT "yellow" stored as ORC

这是ORC格式。我也使用了Parquet,但结果没有差异。

如果我计算行数,其他表格也只显示OK结果。

这是一些示例行,如上所述,这是我用于测试的免费的纽约出租车数据。
2,2016-06-09 21:06:36.0,2016-06-09 21:13:08.0,2,0.79,-73.98336,40.760937,1,N,-73.97746,40.75398,2,6,0.5,0.5,0,0,0.3,7.3
2,2016-06-09 21:06:36.0,2016-06-09 21:35:11.0,1,5.22,-73.98172,40.736668,1,N,-73.981636,40.670242,1,22,0.5,0.5,4,0,0.3,27.3
2,2016-06-09 21:06:36.0,2016-06-09 21:13:10.0,1,1.26,-73.994316,40.751072,1,N,-74.004234,40.74217,1,6,0.5,0.5,1,0,0.3,9.36
2,2016-06-09 21:06:36.0,2016-06-09 21:36:10.0,1,7.39,-73.98236,40.77389,1,N,-73.92947,40.85154,1,26,0.5,0.5,1,0,0.3,28.3

最佳答案

好的,这是解决方案。 hive 和tez日志显示也没有问题。另外,tez给出的行数是正确的。

因此,唯一可能的问题可能是 hive 与tez之间的通信。并且由于某些未知原因,mapred-site.xml没有值,因为在开始时就已设置了它。将其重新设置为正确的yarn-tez值后,它开始工作。

关于hadoop - Hive与函数一起使用时不返回任何值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42508096/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com