pyspark - Databricks 中的 StreamingQuery 增量表

pyspark - Databricks 中的 StreamingQuery 增量表 - 描述历史

转载作者：行者123 更新时间：2023-12-05 05:43:20

31

4

我有一个 Delta 表，我正在读取它作为 StreamingQuery。

使用 DESCRIBE History 查看增量表历史，我看到 99% 的 OperationMetrics 表明 numTargetRowsUpdates 为 0，大多数操作都是插入。但是，偶尔会有 2-3 个 numTargetRowsUpdates > 1。Delta 表上的操作不过是合并。

我是否仍可以使用 StreamingQuery 并将此数据作为流读取，否则我会出错吗？。即:

df: DataFrame = spark \
                .readStream \
                .format("delta") \
                .load(f"{table_location}") \

         df.writeStream \
                    .format("delta") \
                    .outputMode("append") \
                    .option("checkpointLocation", f "{checkpoint}/{table_location}")\
                    .trigger(once=True) \
                    .foreachBatch(process_batch) \
                    .start()

现在我有另一个 Delta 表，它更像是客户信息的维度表，即电子邮件、姓名、上次上线时间等。我最初将其作为附加的 StreamingQuery 阅读，但出现以下错误:java.lang.UnsupportedOperationException: Detected a data update

查看此表，在描述历史记录中，我看到发生了许多更新。问题:如果我将 StreamQuery 与 IgnoreChanges, True 一起使用，这是否会将更新的记录作为新记录发送，我可以在 foreachBatch 中进一步处理？

最佳答案

如果增量源中有更新或删除，读取流将抛出异常。这从 databricks documentation: 中也很清楚。

Structured Streaming does not handle input that is not an append andthrows an exception if any modifications occur on the table being usedas a source.

如果您使用 IgnoreChanges, True，它不会抛出异常，但会为您提供更新的行 + 可能已经处理过的行。这是因为增量表中的所有内容都发生在文件级别。例如，如果您更新文件中的一行(大致)，将发生以下情况:

查找并读取包含要更新的记录的文件
写一个新文件，其中包含更新的记录 + 旧文件中的所有其他数据
在事务日志中将旧文件标记为已删除，并将新文件标记为已添加
您的读取流会将整个新文件读取为"new"记录。这意味着您可以在自己的 Steam 中获得重复项。

文档中也提到了这一点。

ignoreChanges: re-process updates if files had to be rewritten in thesource table due to a data changing operation such as UPDATE, MERGEINTO, DELETE (within partitions), or OVERWRITE. Unchanged rows maystill be emitted, therefore your downstream consumers should be ableto handle duplicates. ...

您必须决定这是否适合您的用例。如果您需要专门处理更新和删除数据 block 提供 Change Data Feed ，您可以在增量表上启用它。这会为您提供有关插入、追加和删除的行级详细信息(以一些额外的存储和 IO 为代价)。

关于pyspark - Databricks 中的 StreamingQuery 增量表 - 描述历史，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/71866652/

31

4

0

文章推荐： node.js - 面对这个错误 : TypeError: yargs. 命令不是函数

文章推荐： C++在函数模板中传递函数指针

文章推荐： Azure Function 工作线程与实例

pyspark - 我想将数据框中的一列月份数字更改为月份名称(pyspark)
我在数据框中有一列月份数字，想将其更改为月份名称，所以我使用了这个: df['monthName'] = df['monthNumber'].apply(lambda x: calendar.mont
pyspark - pyspark 的控制台输入
Pyspark 中是否有一个 input() 函数，我可以通过它获取控制台输入。如果是，请详细说明一下。如何在 PySpark 中编写以下代码: directory_change = input("
pyspark - pyspark 中的数据类型验证
我们正在 pyspark 中构建数据摄取框架，并想知道处理数据类型异常的最佳方法是什么。基本上，我们希望有一个拒绝表来捕获所有未与架构确认的数据。 stringDf = sparkSession.cr
pyspark - pyspark 数据帧中数组的访问字段
我正在开发基于一组 ORC 文件的 spark 数据框的 sql 查询。程序是这样的: from pyspark.sql import SparkSession spark_session = Spa
pyspark - Pyspark 数据框中的填充
我有一个 Pyspark 数据框( 原始数据框 )具有以下数据(所有列都有字符串数据类型): id Value 1 103 2
pyspark - Pyspark + Redis远程服务器
我有一台配置了Redis和Maven的服务器然后我执行以下sparkSession spark = pyspark .sql .SparkSession .builder .master('loca
pyspark - pyspark 数据框的区分大小写的列删除操作？
从一些简短的测试来看，pyspark 数据帧的列删除功能似乎不区分大小写，例如。 from pyspark.sql import SparkSession from pyspark.sql.funct
pyspark - 将大型数组列拆分为多个列 - Pyspark
我有: +---+-------+-------+ | id| var1| var2| +---+-------+-------+ | a|[1,2,3]|[1,2,3]| | b|[2,
pyspark - pyspark 数据框的区分大小写的列删除操作？
从一些简短的测试来看，pyspark 数据帧的列删除功能似乎不区分大小写，例如。 from pyspark.sql import SparkSession from pyspark.sql.funct
pyspark - Pyspark 列的十分位数或其他分位数排名
我有一个带有多个数字列的 pyspark DF，我想为每一列根据每个变量计算该行的十分位数或其他分位数等级。这对 Pandas 来说很简单，因为我们可以使用 qcut 函数为每个变量创建一个新列，如
pyspark - pyspark.mllib 中 LabeledPoint 的类型转换错误，用于在 pyspark.ml 中使用线性回归模型
我有以下使用 pyspark.ml 包进行线性回归的代码。但是，当模型适合时，我在最后一行收到此错误消息: IllegalArgumentException: u'requirement failed
pyspark - 使用 PySpark 读取不带引号的多行字符串平面文件
我有一个由 | 分隔的平面文件(管道)，没有引号字符。示例数据如下所示: SOME_NUMBER|SOME_MULTILINE_STRING|SOME_STRING 23|multiline text
pyspark - 展平 PySpark 数组中的嵌套结构
给定如下模式: root |-- first_name: string |-- last_name: string |-- degrees: array | |-- element: struc
pyspark - 如何在数据帧的开头移动 pyspark 数据帧的特定列
我有一个 pyspark 数据框如下(这只是一个简化的例子，我的实际数据框有数百列): col1,col2,......,col_with_fix_header 1,2,.......,3 4,5,.
pyspark - 使用 pyspark 将特定单词删除到数据框中
我有一个数据框 +------+--------------------+-----------------+---- | id| titulo |tipo | formac
pyspark - 计数数组包含 PySpark 中每个类别的字符串的次数
我从 Spark 数组“df_spark”开始: from pyspark.sql import SparkSession import pandas as pd import numpy as np
pyspark - 在 Pyspark 中删除行
如何根据行号/行索引值删除 Pyspark 中的行值？我是 Pyspark(和编码)的新手——我尝试编码一些东西，但它不起作用。最佳答案您不能删除特定的列，但您可以使用 filter 或其别名
pyspark - 计算从列表 pyspark 引用的列的乘积
我有一个循环生成多个因子表的输出并将列名存储在列表中: | id | f_1a | f_2a | |:---|:----:|:-----| |1 |1.2 |0.95 | |2 |0.7
pyspark - 在 pyspark 中的案例总和
我正在尝试将 hql 脚本转换为 pyspark。我正在努力如何在 groupby 子句之后的聚合中实现 case when 语句的总和。例如。 dataframe1 = dataframe0.gro
pyspark - 获取数组 Pyspark 中的第一个元素
我想添加新的 2 列值服务 arr 第一个和第二个值但我收到错误: Field name should be String Literal, but it's 0; production_targe

首页

博学

6Ren·AI

商城

pyspark - Databricks 中的 StreamingQuery 增量表 - 描述历史