gpt4 book ai didi

apache-spark - 在pyspark中,spark.read()和spark.readstream()有什么区别?

转载 作者:行者123 更新时间:2023-12-03 07:53:26 28 4
gpt4 key购买 nike

在PySpark中,spark.read()和spark.readstream()有什么区别?

我试图了解在 Databricks 中读取数据的各种选项。我在 Spark read() 和 readstream() 上遇到了这两个函数,但找不到有关何时使用哪个函数以及它们之间有何不同的信息。

最佳答案

它们有不同的目的:

  • .read 用于批量数据处理,当您读取整个输入数据集、处理它并存储在某处时。如果添加新数据并再次读取,它会将之前处理过的数据与新数据一起读取并再次处理。

  • .readStream 用于增量数据处理(流式传输) - 当您读取输入数据时,Spark 确定自上次读取操作以来添加了哪些新数据并仅处理它们。流数据处理有不同类型 - 连续的,当你的程序一直运行并处理数据时,或者像批处理一样,当它开始时,找出可用的新数据,并在处理完成后完成。它受 triggers 监管.

关于apache-spark - 在pyspark中,spark.read()和spark.readstream()有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/76599437/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com