gpt4 book ai didi

hadoop - 为什么大公司使用其他数据库,为什么不使用HDFS?

转载 作者:可可西里 更新时间:2023-11-01 15:20:10 25 4
gpt4 key购买 nike

我知道 hadoop 是用于以较便宜的成本存储数据(分布式)的,而在我想到一个问题后,YouTube会提供YouTube提供的视频和文本数据,因此它们必须使用HDFS,但是当我用Google对其搜索时,我惊讶的是他们使用了Vitess,BigTable和MariaDB。所以我的问题是,为什么HDFS无法满足要求?为什么不使用HDFS?
以及数据如何像视频用户数据注释等一样存储在youtube中,它们是使用结构化/非结构化还是半结构化架构来存储所有不同类型的数据。
如果我错了,请告诉我,正确的方法是什么?

最佳答案

HDFS is not fulfilling the requirements ? why not to use HDFS ?



Hadoop / HDFS仅支持批处理。读取或写入数据时,响应时间更长。在某些情况下,一分钟或几秒钟的响应对于企业至关重要,因此必须实时处理大量数据会受到打击。在那儿,具有实时用例的公司通常更喜欢低延迟和高可用性的工具/应用程序,而不是直接写入hdfs。

话虽这么说,Hadoop / HDFS确实满足了大公司的大多数数据仓库需求。这里的问题是您正在尝试使用hadoop / hdfs解决什么问题。如果您在大公司中并且要处理PB级的数据,通常公司会设置跨多个节点的大型集群,然后使用spark / mapreduce批量处理该系统中存储的数据。在多个用例中,公司使用本地大数据集群(通常是hdfs,map-reduce,hive等)来处理其数据。

how the data is stored in youtube like the video user data comments etc, are they using structured/unstructured or semi-structured schema to store all the different type of data.



随着公司拥有本地Hadoop系统的节点和群集的增加,管理这些群集变得越来越困难。因此,出现了云计算,其中管理基础架构的工作在云提供商上,而对于希望构建数据解决方案的公司的管理则更少。这就是大公司倾向于降低其基础架构成本并转向云解决方案而不使用内部部署基础架构的主要原因之一。
像GCP,AWS这样的云提供商拥有Google BigTable,BigQuery等应用程序,这些应用程序支持存储大量记录(PetaByte规模)并在需要更多节点/集群时自动扩展。

像youtube这样的视频流媒体平台,net​​flix确实利用了云基础架构和应用程序来流传输其内容。 Netflix确实将AWS与Cassandra和MySQL一起用作其存储和处理引擎。 Youtube,尽管我不确定,但可以使用Google云存储和Bigtable。

希望这可以帮助 :)

关于hadoop - 为什么大公司使用其他数据库,为什么不使用HDFS?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55216623/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com