gpt4 book ai didi

hadoop - 大数据存储和查询与传统关系/非关系数据库

转载 作者:可可西里 更新时间:2023-11-01 15:43:07 24 4
gpt4 key购买 nike

我是一所大型州立大学 CS 专业的大四学生,目前在一家大型上市技术公司的数据科学部门实习。我在学校学习过数据结构和算法( map 、树、图、排序算法、搜索算法、MapReduce 等),并且通过个人项目使用 MySQL 和 SQL 查询获得了一些经验。

我的实习项目是创建一个仪表板,用于显示从 Hadoop 数据库收集的分析数据。我正在努力了解这些数据的结构和查询方式。我很确定 Hadoop 中的所有数据都来自运行其平台的生产 Oracle Relational DB。 我想我的核心问题是为什么需要 Hadoop 和分布式处理来从已经采用结构化格式的数据库中收集分析数据?存储在 Hadoop 中的数据是什么样的?是否有像 MySQL 这样的表,或像 MongoDB 这样的 JSON 文档?我将通过 Druid 查询 Hadoop,但我什至不确定这个数据库中有什么。

和我一起工作的工程师很会给我讲解,尤其是具体实现的问题,但是他们只有一定的时间可以用来帮助实习生,我想主动去学习其中一些是我自己的。

顺便说一句,令人难以置信的是,它在学校项目上的工作与在拥有数百万活跃用户和 PB 级敏感信息的公司中的项目有多么不同。

最佳答案

Hadoop 不是数据库,因此它没有表之类的东西,也没有关系或文档的任何继承结构。

例如,您可以使用 Hive、Presto、SparkSQL 将模式放置在各种格式的存储文件上,例如 CSV、JSON、Avro、Parquet 等,但这些都是从 Hadoop 文件系统读取的工具,而不是 Hadoop 文件系统的一部分Hadoop 本身。该级别的表和数据库只是元数据,并不完全代表原始数据的样子

Hadoop 能够存储比 Oracle 数据库更多的数据,而且是免费的,但是对于快速分析,建议以分布式方式在 Hadoop 框架内计算统计数据,然后加载回索引系统(例如 Druid)或只是任何实际的数据库

关于hadoop - 大数据存储和查询与传统关系/非关系数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56410342/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com