pyspark - Azure Databricks 到 Azure SQL DW : Long text columns-6ren

pyspark - Azure Databricks 到 Azure SQL DW : Long text columns

转载作者：行者123 更新时间：2023-12-03 19:16:11

25

4

我想从 Azure Databricks 笔记本环境填充 Azure SQL DW。我正在使用带有 pyspark 的内置连接器:

sdf.write \
  .format("com.databricks.spark.sqldw") \
  .option("forwardSparkAzureStorageCredentials", "true") \
  .option("dbTable", "test_table") \
  .option("url", url) \
  .option("tempDir", temp_dir) \
  .save()

这工作正常，但是当我包含具有足够长内容的字符串列时出现错误。我收到以下错误:

Py4JJavaError: An error occurred while calling o1252.save. : com.databricks.spark.sqldw.SqlDWSideException: SQL DW failed to execute the JDBC query produced by the connector.

Underlying SQLException(s): - com.microsoft.sqlserver.jdbc.SQLServerException: HdfsBridge::recordReaderFillBuffer - Unexpected error encountered filling record reader buffer: HadoopSqlException: String or binary data would be truncated. [ErrorCode = 107090] [SQLState = S0001]

据我了解，这是因为默认字符串类型是 NVARCHAR(256)。可以配置 ( reference )，但最大 NVARCHAR 长度为 4k 个字符。我的字符串偶尔会达到 10k 个字符。 因此，我很好奇如何将某些列导出为文本/长文本。

如果只有 preActions，我猜以下内容会起作用创建表后执行。它不是，因此它失败了。

sdf.write \
  .format("com.databricks.spark.sqldw") \
  .option("forwardSparkAzureStorageCredentials", "true") \
  .option("dbTable", "test_table") \
  .option("url", url) \
  .option("tempDir", temp_dir) \
  .option("preActions", "ALTER TABLE test_table ALTER COLUMN value NVARCHAR(MAX);") \
  .save()

另外， postActions在插入数据后执行，因此这也会失败。

有任何想法吗？

最佳答案

我遇到了类似的问题，并且能够使用以下选项解决它:.option("maxStrLength",4000)因此，在您的示例中，这将是:

sdf.write \
  .format("com.databricks.spark.sqldw") \
  .option("forwardSparkAzureStorageCredentials", "true") \
  .option("dbTable", "test_table") \
  .option("maxStrLength",4000)\
  .option("url", url) \
  .option("tempDir", temp_dir) \
  .save()

这是 documented here :
“Spark 中的 StringType 映射到 Azure Synapse 中的 NVARCHAR(maxStrLength) 类型。您可以使用 maxStrLength 为 Azure Synapse 中名为 dbTable 的表中的所有 NVARCHAR(maxStrLength) 类型列设置字符串长度。”
如果您的字符串超过 4k，那么您应该:
使用 NVARCHAR(MAX) 预定义表列，然后以追加模式写入表。在这种情况下，您不能使用默认的列存储索引，因此请使用 HEAP 或设置适当的索引。一个懒惰的堆将是:

CREATE TABLE example.table
(
    NormalColumn NVARCHAR(256),
    LongColumn NVARCHAR(4000),
    VeryLongColumn NVARCHAR(MAX)
) 
WITH (HEAP)

然后您可以像往常一样写入它，而无需 maxStrLength 选项。这也意味着您不会过度指定所有其他字符串列。
其他选择是:

使用 split 将 1 列转换为多个字符串列。

另存为 Parquet ，然后从突触内部加载

关于pyspark - Azure Databricks 到 Azure SQL DW : Long text columns，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60521948/

25

4

0

文章推荐： class - 如何在 AutoHotkey 中创建一个类？

dw[1].exe进程 dw[1].exe是什么文件
进程文件: dw[1].exe or dw[1] 进程名称: Adware.W32.DelFin 描述: dw[1].exe is a process belonging to an adve
使用 Polybase 从 Azure SQL DW 到 Azure SQL DW
我知道您可以使用 Polybase 使用外部表将大量数据从 Blob 存储加载到 Azure SQL DW。但是我们有没有可能直接使用polybase将数据从SQL DW导入到另一个SQL DW呢？或
linux - 为什么 PCIe TLP header 有 "Last DW BE"和 "First DW BE"？
我遇到了一个与 PCIe 相关的问题。我用驱动把0x12345678写入BAR0+offset，用Xilinx Chipscope看波形。在我们的 Intel Rangeley 主板上，我们看到 TL
java - Mule单机无法读取架构文档 'http://www.mulesoft.org/schema/mule/ee/dw/current/dw.xsd'
我试图在 mule 独立版 3.7.0 上部署 mule 应用程序，但运行时出现此错误: org.xml.sax.SAXParseException:schema_reference.4:无法读取架构
DW 查找某字符串前的所有字符的正则表达式
我使用DW 这个所见所得的编辑器来写html时，喜欢写上注释，如 等等的注释，在一次比较大的改动时，需要批量查找替换，为了批量操作，于是我写了一个正则表达式
ASP实现多行注释的方法(dw)
CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章ASP实现多行注释的方法(dw)由作者收集整理，如果你对这篇文章有兴趣，
html - DW 在我的内联列表中使用什么中心点？
所以我将文本“Jonathon Smith Photography”居中对齐。在它正下方的另一个 DIV 中，我居中对齐了一个包含“Portfolio Contact Bio”的内联列表(我的导航栏)
dw(dreamweaver)正则表达式函数列表
刚用teleport pro拉了一个整站到本地所有的超链都被强行加了一句tppabs="..."新装的系统和dreamweaver 8就玩了一把dw的替换功能
Azure SQL DW 数据加载需要很长时间
我正在尝试将数据从外部表加载到 SQL DW 内部表。我在 BLOB 存储中以压缩格式存储数据，并且外部表指向 BLOB 存储位置。我有大约 24 个文件，大小约为 22GB，并尝试使用更大的资源类
azure - 如何将Azure机器学习服务结果导出到Azure SQL DW？
我遇到三个与 Azure 机器学习服务相关的问题。如果您能给我一些指导或相关引用，我将不胜感激。 (1)关于机器学习的计算结果，我可以将其导出到 Azure 中的 SQL 数据仓库吗？格式会是什么
git - 如何避免提交 DW 动态文件？
提交 git 时要求我处理 DreamWeaver 动态文件 (*/_notes/dwsync.xml)。它们很多，我不知道如何 stash 它们，因为它们是动态的(所以不可能将它们添加到 .giti
sql - 在 ssms 中插入突触 DW
简单的插入代码，但我不断收到语法错误，值行对表中的每一列都有一个值，它只有 3 列，我试过删除逗号，尝试使用分号关闭父级后什么也没试过，试过在值之前明确说明列名在这段简单的代码上没有任何作用最佳答案
azure - 将数据从本地 DW 迁移到 Azure
我有一个使用 SQL Server 的本地数据仓库，将数据加载到 SQL 数据仓库的最佳方法是什么？最佳答案加载数据的过程取决于数据量。对于非常小的数据集 (<100 GB)，您只需使用批量复制命
azure - 将数据加载到 Azure SQL DW
我有大量数据需要加载到 SQL DW。将数据传输到 Azure 的最佳方式是什么？我应该使用导入/导出还是 AzCopy？每种方法需要多长时间？最佳答案加载数据的过程取决于数据量。对于非常小的数据
azure - 如何使用逻辑应用程序向上/向下扩展Azure SQL DW
我知道可以创建逻辑应用程序来恢复/暂停 Azure SQL 数据仓库，并且可以在管道中的 Azure 数据工厂中使用相同的逻辑应用程序。我想知道是否有任何方法可以类似地创建一个逻辑应用程序并在 ADF
web - 我的 DW cs6 有问题吗？
当我运行 Dreamweaver cs 6 时，我的 cpu 使用率在一个核心中显示很高的百分比，当我打开进程选项卡时，dreamweacer.exe 使用我四核的 cpu 25。我正在使用 wind
带有 Hive DW 的 MongoDB
我计划第一次在 MongoDB 中构建一个 DataWarehouse。有人建议我使用 Hadoop 进行 map-reduce，以防我需要对数据集进行一些更复杂的分析。发现 Hive 后，我喜欢通
azure - Azure SQL DW 的跨服务器还原？
假设我有一个 mydev.database.windows.net Azure SQL Server 和 Azure SQL DW 数据库用于开发。我有一个用于产品的 myprod.database.
dataweave - DW 2.0 中的多态性
我最近意识到在 DW 2.0 中使用类似泛型的表示法来表示多态类型。下面的例子 %dw 2.0 output application/dw fun id1(a) = a fun id2(a: Any
azure - 将数据从本地 DW 迁移到 Azure
我有一个使用 SQL Server 的本地数据仓库，将数据加载到 SQL 数据仓库的最佳方法是什么？最佳答案加载数据的过程取决于数据量。对于非常小的数据集 (<100 GB)，您只需使用批量复制命

首页

博学

6Ren·AI

商城

pyspark - Azure Databricks 到 Azure SQL DW : Long text columns