gpt4 book ai didi

hadoop - 在Hadoop中预处理和提取数据

转载 作者:行者123 更新时间:2023-12-02 21:49:45 25 4
gpt4 key购买 nike

我们有两种类型的日志:

1) session 日志:SESSION_ID,USER_ID,START_DATE_TIME,END_DATE_TIME

2)事件记录:SESSION_ID,DATE_TIME,X,Y,Z

我们只需要存储事件日志,但是想用其对应的USER_ID替换SESSION_ID。我们应该使用哪些技术(例如Flume?)将数据存储在HDFS中?

谢谢!

最佳答案

是的Flume可用于将日志文件移动到HDFS。

要将SESSION_ID替换为USER_ID,您可以:

使用Shell脚本执行此操作-并生成“修改后的事件日志文件”-这就是Flume将要使用的内容。这将是最简单的方法。

关于hadoop - 在Hadoop中预处理和提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22059573/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com