- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我听到了一个新名词数据湖。我用谷歌搜索了一下
A data lake is a large-scale storage repository and processing engine. A data lake provides "massive storage for any kind of data, enormous processing power and the ability to handle virtually limitless concurrent tasks or jobs"
The term data lake is often associated with Hadoop-oriented object storage. In such a scenario, an organization's data is first loaded into the Hadoop platform, and then business analytics and data mining tools are applied to the data where it resides on Hadoop's cluster nodes of commodity computers.
Hadoop 也做同样的事情。我们有用于存储的 HDFS 和用于计算的 MapReduce。我对 Hadoop 和数据湖有点困惑。两者有什么区别。如果它们相同,那么为什么会出现这个术语。或者如何定义数据湖。
最佳答案
数据湖是一个抽象的“想法”。 Hadoop 是特定的技术/软件。您可以使用 hadoop 或使用不同的工具来实现数据湖。
关于Hadoop 与数据湖,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35987508/
我目前在 databricks 中有一个附加表(spark 3,databricks 7.5) parsedDf \ .select("somefield", "anotherFiel
我是一名优秀的程序员,十分优秀!