gpt4 book ai didi

hadoop - POC for Hadoop 实时场景

转载 作者:可可西里 更新时间:2023-11-01 14:15:50 27 4
gpt4 key购买 nike

我有点问题。我想了解 Hadoop 以及如何使用它来实时处理数据流。因此,我想围绕它构建一个有意义的 POC,这样当我必须在一些潜在雇主面前证明我对它的了解或在我现在的公司介绍它时,我可以展示它。

我还想提一下,我的硬件资源有限。只有我的笔记本电脑和我自己 :) 我了解 Hadoop 的基础知识并且编写了 2-3 个基本的 MR 作业。我想做一些更有意义或更现实的事情。

请提出建议。

提前致谢。

最佳答案

我想指出几点。

如果您想只用一台笔记本电脑进行 POC,那么使用 Hadoop 就没有什么意义了。

另外,正如其他人所说,Hadoop 不是为实时应用程序设计的,因为运行 Map/Reduce 作业会产生一些开销。

也就是说,Cloudera 发布了 Impala它与 Hadoop 生态系统(特别是 Hive metastore)一起工作以实现实时性能。请注意,要实现此目的,它不会生成 Map/Reduce 作业,目前处于测试阶段,因此请谨慎使用。

所以我真的建议去 Impala,这样你仍然可以使用 Hadoop 生态系统,但如果你也在考虑替代方案,这里还有一些其他可用的框架:

  • Druid :由 MetaMarkets 开源。看起来很有趣,尽管我自己没有使用过它。
  • Storm : 不与 HDFS 集成,它只处理数据。
  • HStreaming : 与 Hadoop 集成。
  • Yahoo S4 : 看起来非常接近 Storm。

最后,我认为您应该真正分析您的需求,看看使用 Hadoop 是否是您所需要的,因为它只是在实时空间中起步。还有几个其他项目可以帮助您实现实时性能。


如果你想展示项目的想法,我建议查看 this link .她是一些例子:

  • 金融/保险
    • 将投资机会分类为好或坏,例如基于行业/公司指标、投资组合多样性和货币风险。
    • 根据例如信用卡交易将信用卡交易分类为有效或无效交易地点和信用卡持卡人、日期、金额、购买的商品或服务、交易历史和类似交易。
  • 生物学/医学
    • 将蛋白质分类为结构或功能类别
    • 诊断分类,例如基于图像的癌症肿瘤
  • 互联网
    • 文档分类和排序
    • 恶意软件分类、电子邮件/推文/网络垃圾邮件分类
  • 生产系统(例如能源或石化行业)
    • 根据来自传感器的实时和历史数据对情况(例如最佳位置或风险情况)进行分类和检测

关于hadoop - POC for Hadoop 实时场景,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14294864/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com