gpt4 book ai didi

hadoop - hadoop会取代数据仓库吗?

转载 作者:可可西里 更新时间:2023-11-01 15:34:35 24 4
gpt4 key购买 nike

我听说 Hadoop 准备取代数据仓库的报道。所以我想知道是否有关于成功/失败率的实际案例研究,或者这里的一些开发人员是否曾在一个项目中完成过这个项目,无论是全部还是部分?

随着“大数据”的出现,似乎有很多关于它的炒作,我正试图从小说中找出事实。

我们正在进行一个巨大的数据库转换,我认为这可能是一个替代解决方案。

最佳答案

好吧,大数据初创公司有很多成功案例,尤其是在 AdTech 领域,尽管它并没有“取代”旧的昂贵的专有方法,但他们只是第一次使用 Hadoop。我想这就是作为一家初创公司的好处——没有遗留系统。广告,虽然从表面上看有些无聊,但从技术和数据科学的角度来看是非常有趣的。数据量巨大,挑战在于更有效地分割用户和竞标广告空间。这通常意味着涉及一些机器学习。

不只是 AdTech,Hadoop 在银行中用于欺诈检测和各种其他交易分析。

关于为什么会发生这种情况的两分钱,我将尝试通过比较我的主要经验来总结,即使用 HDFS 与 Spark 和 Scala,与使用 SAS、R 和 Teradata 的传统方法:

  1. HDFS 是一种非常非常非常有效的方法,可以以易于访问的分布式方式存储大量数据,而无需首先构建数据的开销。
  2. HDFS 不需要定制硬件,它可以在商用硬件上运行,因此每 TB 更便宜。
  3. HDFS 和 hadoop 生态系统与动态灵活的云架构密切相关。谷歌云和亚马逊 AWS 具有如此丰富而廉价的功能,完全消除了对内部 DC 的需求。无需购买 20 台功能强大的服务器和 100 TB 的存储空间,然后发现它不够用,或者太多,或者每天只需要 1 小时。使用云服务设置集群变得越来越容易,甚至有脚本可以让那些只有少量 sysadm/devops 经验的人也能做到。
  4. Hadoop 和 Spark,尤其是与 Scala 等高级静态类型语言一起使用时(但 Java 8 也不错)意味着数据科学家现在可以做他们用 R、Python 和 SAS 等脚本语言永远做不到的事情。首先,他们可以将他们的建模代码与其他生产系统连接起来,全部使用一种语言,全部在一个虚拟环境中。想想所有用 Scala 编写的高速工具; Kafka、Akka、Spray、Spark、SparkStreaming、GraphX 等,在 Java 中:HDFS、HBase、Cassandra——现在所有这些工具都具有高度的互操作性。这意味着历史上第一次数据分析师可以可靠地自动化分析并构建稳定的产品。它们具有所需的高级功能,但具有静态类型、FP 和单元测试的可预测性和可靠性。尝试用 Python 构建一个大型复杂的并发系统。尝试用 R 或 SAS 编写单元测试。尝试编译您的代码,观察测试是否通过,然后用动态类型语言得出结论“嘿,它工作了!让我们发布吧”。

这四点结合起来意味着 A:存储数据现在便宜很多,B:处理数据现在便宜很多,C:人力资源成本便宜得多,因为现在您不需要几个孤立的团队转变为分析师、建模师、工程师、开发人员,您可以将这些技能融合在一起,使混合型最终需要雇用更少的人。

事情不会在一夜之间改变,目前劳动力市场主要缺少两个群体;优秀的大数据 DevOps 和 Scala 工程师/开发人员,他们的比率清楚地反射(reflect)了这一点。不幸的是,尽管需求很高,但供应量却很低。尽管我仍然推测用于仓储的 Hadoop 成本要低得多,但寻找人才可能是一项限制转型步伐的巨大成本。

关于hadoop - hadoop会取代数据仓库吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27574642/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com