gpt4 book ai didi

hadoop - 如何维护Hadoop中的变量?

转载 作者:可可西里 更新时间:2023-11-01 15:06:21 25 4
gpt4 key购买 nike

我有几条记录说

session1    click1    time1 

session1 click2 time2

session1 click3 time3

session2 click1 time1

session2 click2 time2

session2 click3 time3

现在我需要计算 session 中每次点击的访问时间

session1    click1    time1    (time2-time1)

session1 click2 time2 (time3-time2)

session1 click3 time3 0

session2 click1 time1 (time2-time1)

session2 click2 time2 (time3-time2)

session2 click3 time3 0

我可以使用 hadoop 的哪个组件来获得上述功能?

最佳答案

一种可能的解决方案是使用 Map Reduce。

Map 可以将 Key、Value 作为 SessionID、Click-Time 对发出。在 reducer 端,按时间顺序对 Click-Time 对进行排序。因此您可以轻松获得第一次、第二次和第三次点击。其余的很简单,只需为 reducer 中的每一对发出 Key, Click, Time, Time Difference(每个由分隔符制表符分隔)。 reducer 的值可以是 NullWritable

关于hadoop - 如何维护Hadoop中的变量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23430782/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com