gpt4 book ai didi

delta-lake - 内部部署的三角洲湖

转载 作者:行者123 更新时间:2023-12-04 08:08:01 26 4
gpt4 key购买 nike

是否可以在本地实现三角洲湖?如果是,需要安装什么软件/工具?
我正在尝试在内部实现一个 delta 湖来分析一些日志文件和数据库表。我当前的机器装有 ubuntu,apache spark。不确定还需要什么其他工具。
是否有任何其他工具建议来实现本地数据湖概念?

最佳答案

是的,您可以在本地使用 Delta Lake。这只是使用正确版本的 Delta 库的问题(Spark 2.4 为 0.6.1,Spark 3.0 为 0.8.0)。或者运行 spark-shell/pyspark 如下(对于 Spark 3.0):

pyspark --packages io.delta:delta-core_2.12:0.8.0
然后你可以以Delta格式写入数据,如下所示:
spark.range(1000).write.format("delta").mode("append").save("1.delta")
它也可以处理本地文件,但是如果你需要构建一个真正的数据湖,那么你需要使用像 HDFS 这样的东西,它也是开箱即用的。

关于delta-lake - 内部部署的三角洲湖,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66125902/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com