hadoop - 如何使用配置单元实现预期的输出-6ren

hadoop - 如何使用配置单元实现预期的输出

转载作者：可可西里更新时间：2023-11-01 14:45:52

25

4

1.Table1和Table2是关联的，其中table1 px coo组合的时间条目显示在tabel2中。我需要每个 px coo 组合的最后一次输入。如何使用配置单元实现这个？预期输出如下所示，以供引用。

px1    coo1
px1    coo2
px1    coo3
px2    coo2
px2    coo4
px3    coo3
px4    coo4

表2

id1     2014-01-01 21:23:23,273     px1    coo1
id2     2014-01-01 22:01:22,377     px1    coo1
id3     2014-01-01 22:25:06,196     px1    coo1
id4     2014-01-01 22:51:39,487     px1    coo1
id5     2014-01-01 02:05:57,875     px1    coo2
id6     2014-01-01 02:09:42,675     px1    coo2
id7     2014-01-01 23:19:42,059     px1    coo3
id8     2014-01-01 23:34:51,782     px1    coo3
id9     2014-01-01 06:13:05,531     px2    coo2
id10    2014-01-01 06:27:36,676     px2    coo2
id11    2014-01-01 06:59:43,999     px2    coo2
id12    2014-01-01 09:21:57,325     px3    coo3
id13    2014-01-01 17:19:06,956     px4    coo4
id14    2014-01-01 17:27:05,128     px4    coo4

预期的输出应该是

id4     2014-01-01 22:51:39,487     px1    coo1
id6     2014-01-01 02:09:42,675     px1    coo2
id8     2014-01-01 23:34:51,782     px1    coo3
id11    2014-01-01 06:59:43,999     px2    coo2
id12    2014-01-01 09:21:57,325     px3    coo3
id14    2014-01-01 17:27:05,128     px4    coo4

最佳答案

假设你的 table2，最后一列将与 table2 一致。(我的意思是这里对 table 2 本身进行操作你可以获得结果，因为 pix_id，coo_id 将在 table2 中正确匹配。)如果我的假设是错误的请原谅。

hive (sflow)> desc table2;
OK
col_name    data_type   comment
id  string  from deserializer
time_stamp  string  from deserializer
pix_id  string  from deserializer
coo_id  string  from deserializer
Time taken: 0.277 seconds

hive (sflow)>

SELECT t2.id,t2.time_stamp,t2.pix_id,t2.coo_id
   FROM table2 t2 JOIN
        ( SELECT pix_id,coo_id, Max(UNIX_TIMESTAMP(time_stamp)) as max_epoch 
          FROM table2 
          GROUP BY pix_id,coo_id)  temp   
WHERE t2.pix_id=temp.pix_id AND t2.coo_id=temp.coo_id AND UNIX_TIMESTAMP(t2.time_stamp) = max_epoch ;

ps:这里复制完整日志(请注意，我运行的是伪模式hadoop，hive 0.9，2GB RAM):

hive (sflow)> from table2 t2 join (select pix_id,coo_id, Max(UNIX_TIMESTAMP(time_stamp)) as max_epoch from table2 group by pix_id,coo_id) temp
            > select t2.id,t2.time_stamp,t2.pix_id,t2.coo_id where t2.pix_id=temp.pix_id and t2.coo_id=temp.coo_id and UNIX_TIMESTAMP(t2.time_stamp) = max_epoch ;

Total MapReduce jobs = 2
Launching Job 1 out of 2
Number of reduce tasks not specified. Estimated from input data size: 1
Total MapReduce CPU Time Spent: 24 seconds 0 msec
OK
id  time_stamp  pix_id  coo_id
id4 2014-01-01 22:51:39,487 px1 coo1
id6 2014-01-01 02:09:42,675 px1 coo2
id8 2014-01-01 23:34:51,782 px1 coo3
id11    2014-01-01 06:59:43,999 px2 coo2
id12    2014-01-01 09:21:57,325 px3 coo3
id14    2014-01-01 17:27:05,128 px4 coo4
Time taken: 145.17 seconds

hive (sflow)> 
hive (sflow)> desc table2;
OK
col_name    data_type   comment
id  string  from deserializer
time_stamp  string  from deserializer
pix_id  string  from deserializer
coo_id  string  from deserializer
Time taken: 0.277 seconds
hive (sflow)>

关于hadoop - 如何使用配置单元实现预期的输出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21422560/

25

4

0

文章推荐： hadoop - 无法使用 hadoop 存档工具存档

文章推荐： windows - Windows 上的 Node JS 0.6.1 msi

文章推荐： java - 方案 : webhdfs 没有文件系统

文章推荐： javascript - 动态生成的行上的 jQuery 日期选择器

java - 预期 & .class 预期 java
我对java有点陌生，所以如果我犯了一个简单的错误，请原谅我，但我不确定我哪里出错了，我收到的错误是“预期的.class，预期的标识符，而不是声明， ';'预期的。”我尝试了不同的方法，并从这些方法中
mocha - Mocha ， Chai ，未捕获的AssertionError:预期{}等于{} +预期-实际
This question already has answers here: chai test array equality doesn't work as expected （3个答案） 3年前
java - 此行有多个标记 - 标记 ")"上的语法错误，；预期 - token "("上的语法错误，{预期
我正在学习 Java(对不起，我的英语很差，这不是我的母语)，当我在 Eclipse (JavaSE-1.7) 中在我输入的每个“try”中执行“try-finally” block 时，会出现以下消
java - token 语法错误，预期 ConstructorHeaderName 和 token 语法错误 "("，< 预期
我收到两个错误，指出 token 上的语法错误，ConstructorHeaderName expected instead & token “(”上的语法错误，< expected 在线: mTM.
Java :Multiple markers at this line - Syntax error on token “)” , ;预期 - token “(” 上的语法错误，{ 预期
我找不到错误。 Eclipse 给我这个错误。每个 { } 都是匹配的。请帮忙。 Multiple markers at this line - Syntax error on token “)”,
java - JApplet 程序 : error: ')' expected, 错误 : illegal start of type, 预期，错误: ';' 预期
代码: import java.awt.*; import javax.swing.*; import java.awt.event.*; public class DoubleIt extends
python - 预期 ")"
我正在用 python(Vs 代码)编写代码，但出现此错误: Expected ")" Pylance 错误发生在:def main() 我试着运行我的 main 并将它打印到我的屏幕上。我用谷歌搜
reactjs - 异步函数意外标记，预期 (
我正在尝试按照 documentation 中的建议使用异步函数。但我收到此错误意外的 token ，预期 ( async function getMoviesFromApi() { try
java - Java非法启动类型)预期
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-topic
java - ActionListener编译错误-;预期
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-topic
java - 第21行显示;预期
第一行包含一个表示数组长度的整数p。第二行包含用空格分隔的整数，这些整数描述数组中的每个元素。第三行打印一个整数，指示负数组的数量。 package asgn3; import java.util.*
Java 表达式语言错误 ";"预期
好的，我是初学者，我必须修复此 java 表达式语言代码才能在我的系统 (Windchill) 中工作，但看起来我在语法中遗漏了一些内容: LWCNormalizedObject lwc =
java - 预期 )，表达式的非法开始
我无法编译我的程序! 我想我缺少一个花括号，但我怎么也看不出在哪里! import javax.swing.*; import java.awt.*;
预期 jQuery 选择器
我的 jQuery 代码有问题，我的 Firebug 向我发出警告:需要选择器。这是代码: $("img[id$='_tick']").each(function() { $(this).c
c++ - 预期 { 在析构函数之前
我的新类(class) Fountainofyouth 遇到了问题。尝试构建整个项目后，调试器显示 warning: extended initializer lists only available
c++ - 预期 { 在输入结束时
我已经从 Java 转向 CPP，并且正在努力围绕构造构造函数链进行思考，我认为这是我的问题的根源。我的头文件如下: public: GuidedTour(); GuidedTour(string
javascript - jsLint 预期 {
鉴于以下 for(var i=0; i< data.cats.length; i++) list += buildCategories(data.cats[i]); jsLint 告诉我 Expect
json - 类型不正确。预期 "object"
我有这个 json，但 Visual Studio Code 在标题中给了我警告。 [ { "title": "Book A", "imageUrl": "https:
c++ - 预期 move_assignment 被删除
我正在尝试编写一个有条件地禁用四个特殊成员函数(复制构造、移动构造、复制赋值和移动赋值)的包装类，下面是我用于测试目的的快速草稿: enum class special_member : uint8_
F#:预期 'in' 或其他标记错误
所以我用 F# 编写了一个非常简单的程序，它应该对 1000 以下的所有 3 和 5 的倍数求和: [1..999] |> List.filter (fun x -> x % 3 = 0 || x %

首页

博学

6Ren·AI

商城

hadoop - 如何使用配置单元实现预期的输出