gpt4 book ai didi

java - 使用 hadoop 进行数据分析

转载 作者:可可西里 更新时间:2023-11-01 16:10:51 27 4
gpt4 key购买 nike

我有一个关于在我的一个项目中实现 hadoop 的问题。基本上要求是,我们每天都会收到大量日志,其中包含有关视频的信息(播放时间、停止时间、哪个用户播放等)。

我们要做的是分析这些文件并返回统计数据以响应 HTTP 请求。请求示例:http://somesite/requestData?startDate=someDate&endDate=anotherDate .基本上,此请求要求计算在一个日期范围内播放的所有视频的数量。

我的问题是我们可以使用 hadoop 来解决这个问题吗?

我读过各种文章,hadoop 不是实时的。那么要处理这种情况,我应该将 hadoop 与 MySQL 结合使用吗?

我想做的是在 mysql 中为每天的每个视频编写一个 Map/Reduce 作业和存储计数。 hadoop 作业可以安排为每天运行一次。然后可以使用 Mysql 数据实时处理请求。

这种方法是否正确? hive 在这方面有用吗?请就此提供一些指导。

最佳答案

是的,您的方法是正确的 - 您可以使用 MR 作业或 Hive 创建每天的数据,并将它们存储在 MySQL 中以供实时使用。

然而,当配置了 Tez 时,较新版本的 Hive 可以提供不错的查询性能。您可以尝试将每天的数据存储在 Hive 中,直接从那里为它们提供服务。如果查询是一个简单的选择,它应该足够快。

关于java - 使用 hadoop 进行数据分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31833562/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com