gpt4 book ai didi

apache-spark - Parquet VS 数据库

转载 作者:行者123 更新时间:2023-12-04 05:12:39 25 4
gpt4 key购买 nike

我试图了解以下两个中哪一个是更好的选择,尤其是在 Spark 环境的情况下:

  • 将 Parquet 文件直接加载到数据框中并访问数据(1TB 数据表)
  • 使用任何数据库来存储和访问数据。

  • 我正在研究数据管道设计,并试图了解上述两个选项中的哪一个将导致更优化的解决方案。

    最佳答案

    与通过 JDBC 连接器读取 Oracle 等 RDBMS 相比,将 Parquet 文件直接加载到数据帧并访问数据更具可扩展性。我处理的数据超过 10TB,但我更喜欢 ORC 格式以获得更好的性能。我建议您必须直接从文件中读取数据,原因是数据局部性 - 如果您在相同的主机上运行 Spark 执行程序,HDFS 数据节点位于其中,并且可以有效地将数据读入内存而无需网络开销。见 https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html以及 Apache Spark 如何知道 HDFS 数据节点?更多细节。

    关于apache-spark - Parquet VS 数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47126901/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com