azure-databricks - Databricks 版本 7.0 的行为不像版本 6.3 : class java. lang.Long 不能转换为类 java.lang.Integer-6ren

azure-databricks - Databricks 版本 7.0 的行为不像版本 6.3 : class java. lang.Long 不能转换为类 java.lang.Integer

转载作者：行者123 更新时间：2023-12-05 07:06:27

26

4

我在 azure databricks 版本 6.3 - Spark 2.4.4 上有一个工作笔记本

此笔记本使用它的连接器将数据引入 Azure Synapse Analytics

当我将笔记本升级到版本 7.0 - Spark 3.0.0 时，进程开始失败并出现以下错误:

com.microsoft.sqlserver.jdbc.SQLServerException:HdfsBridge::recordReaderFillBuffer - Unexpected error encounteredfilling record reader buffer: ClassCastException: class java.lang.Longcannot be cast to class java.lang.Integer (java.lang.Long andjava.lang.Integer are in module java.base of loader 'bootstrap')[ErrorCode = 106000] [SQLState = S0001]

这是 Synapse Analytics 中的表架构:

CREATE TABLE [dbo].[IncrementalDestination]
(
[Id] [int] NOT NULL,
[VarChar] [varchar](1000) NULL,
[Char] [char](1000) NULL,
[Text] [varchar](1000) NULL,
[NVarChar] [nvarchar](1000) NULL,
[NChar] [nchar](1000) NULL,
[NText] [nvarchar](1000) NULL,
[Date] [date] NULL,
[Datetime] [datetime] NULL,
[Datetime2] [datetime2](7) NULL,
[Smalldatetime] [smalldatetime] NULL,
[Bigint] [bigint] NULL,
[Bit] [bit] NULL,
[Decimal] [decimal](18, 0) NULL,
[Int] [int] NULL,
[Money] [money] NULL,
[Numeric] [numeric](18, 0) NULL,
[Smallint] [smallint] NULL,
[Smallmoney] [smallmoney] NULL,
[Tinyint] [tinyint] NULL,
[Float] [float] NULL,
[Real] [real] NULL,
[Column With Space] [varchar](1000) NULL,
[Column_ç_$pecial_char] [varchar](1000) NULL,
[InsertionDateUTC] [datetime] NOT NULL,
[De_LastUpdated] [datetime2](3) NOT NULL
)
WITH
(
DISTRIBUTION = ROUND_ROBIN,
CLUSTERED COLUMNSTORE INDEX
)
GO

这是 Databricks 在读取 Azure BlobStorage 中的一堆 Parquet 后生成的模式

root
 |-- Id: long (nullable = true)
 |-- VarChar: string (nullable = true)
 |-- Char: string (nullable = true)
 |-- Text: string (nullable = true)
 |-- NVarChar: string (nullable = true)
 |-- NChar: string (nullable = true)
 |-- NText: string (nullable = true)
 |-- Date: timestamp (nullable = true)
 |-- Datetime: timestamp (nullable = true)
 |-- Datetime2: timestamp (nullable = true)
 |-- Smalldatetime: timestamp (nullable = true)
 |-- Bigint: long (nullable = true)
 |-- Bit: boolean (nullable = true)
 |-- Decimal: long (nullable = true)
 |-- Int: long (nullable = true)
 |-- Money: double (nullable = true)
 |-- Numeric: long (nullable = true)
 |-- Smallint: long (nullable = true)
 |-- Smallmoney: double (nullable = true)
 |-- Tinyint: long (nullable = true)
 |-- Float: double (nullable = true)
 |-- Real: double (nullable = true)
 |-- Column_With_Space: string (nullable = true)
 |-- Column_ç_$pecial_char: string (nullable = true)
 |-- InsertionDateUTC: timestamp (nullable = true)
 |-- De_LastUpdated: timestamp (nullable = false)

我看到了

Int: long (nullable = true)

但是我能做什么呢？

这种转换不应该是自然且容易完成的吗？

我认为这些新功能有些问题 =]

最佳答案

我相信这是由以下变化引起的，如described in migration guide :

In Spark 3.0, when inserting a value into a table column with a different data type, the type coercion is performed as per ANSI SQL standard. Certain unreasonable type conversions such as converting string to int and double to boolean are disallowed. A runtime exception is thrown if the value is out-of-range for the data type of the column. In Spark version 2.4 and below, type conversions during table insertion are allowed as long as they are valid Cast. When inserting an out-of-range value to an integral field, the low-order bits of the value is inserted(the same as Java/Scala numeric type casting). For example, if 257 is inserted to a field of byte type, the result is 1. The behavior is controlled by the option spark.sql.storeAssignmentPolicy, with a default value as “ANSI”. Setting the option as “Legacy” restores the previous behavior.

因此您可以尝试将 spark.sql.storeAssignmentPolicy 设置为 Legacy 并重新运行代码。

关于azure-databricks - Databricks 版本 7.0 的行为不像版本 6.3 : class java. lang.Long 不能转换为类 java.lang.Integer，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62492265/

26

4

0

文章推荐： r - 理解 R 中的 Pretty()

文章推荐： r - 探索澳大利亚人口普查数据的最佳方式？

文章推荐： python - Numpy-recarray，C#结构化数据

databricks - Databricks 中的目录
我已经开始阅读 Databricks 推出的 Unity Catalog。我了解它试图解决的基本问题，但我不了解目录到底是什么。这在 Databricks 文档中可用， A catalog cont
databricks - 为什么我不使用 Databricks 作为我的数据集市？
我正在努力了解 Databricks。我发现文档逐步从 S3 或 Azure Datalake 导入数据，然后输出到 Azure Synapse Analytics 或其他数据仓库解决方案。快速播
databricks - 以编程方式将库导入到 Databricks 中的工作区
我想以编程方式将(Python Wheel)库添加到 /Shared Databricks 上的工作区。在 GUI(工作区 > 导入 > 库)中很容易做到，但我无法弄清楚如何在 Databricks
databricks - 在 Databricks 笔记本错误中显示图像
我正在创建一个带有公司 Logo 的 databricks 笔记本模板。使用以下代码显示图像会引发错误。代码: %md 错误: HTTP ERROR 403: Invalid or missing
databricks - 如何在现有数据库之上创建具有只读访问权限的 databricks 数据库
我将使用这张图片来形象化我的问题: Databricks1 在 Databricks 中创建数据库(和表)并将其数据存储在存储帐户中。在Databricks2中我想读取数据:Databricks2只有
databricks - Azure Databricks secret 范围 : Azure Key Vault-backed or Databricks-backed
有没有办法通过 python 笔记本确定现有的 Azure Databricks Secret Scope 是否由 Key Vault 或 Databricks 支持？ dbutils.secrets
databricks - 无法将 dbt 连接到 Databricks
我正在尝试连接到 Databricks 上的 Spark 集群，并且正在学习本教程:https://docs.databricks.com/dev-tools/dbt.html .我安装了 dbt-d
databricks - 从 Databricks Autoloader 获取已加载文件的列表
我们可以使用Autoloader跟踪是否已从 S3 存储桶加载的文件。我关于 Autoloader 的问题:有没有办法读取 Autoloader 数据库以获取已加载文件的列表？我可以在 AWS Gl
databricks - 如何将日志从 Azure Databricks 重定向到另一个目的地？
我们可以使用一些帮助来了解如何将 Spark Driver 和 worker 日志发送到 Azure Databricks 之外的目的地，例如Azure Blob 存储或使用 Eleastic-bea
databricks - 如何启用 Databricks Delta 功能
将我的 Azure Databricks 从标准升级到主要，尝试开始使用 Databricks Delta: create table t using delta as select * from t
databricks - 我们可以从 Databricks Autoloader 中排除或仅包含特定的文件扩展名吗？
现在，databricks 自动加载器需要一个目录路径，从中加载所有文件。但是，如果其他类型的日志文件也开始进入该目录 - 有没有办法让 Autoloader 在准备数据帧时排除这些文件？ df =
databricks - 如何使用 Databricks dbutils 从文件夹中删除所有文件
有人可以让我知道如何使用 databricks dbutils 从文件夹中删除所有文件。我尝试了以下但不幸的是，Databricks 不支持通配符。 dbutils.fs.rm('adl://azu
Azure Databricks - 解释 databricks 中的安装语法
我是 azure 的新手和databricks ，我学会了如何安装 blob 和利用，但我有一些疑问，而且我还没有找到任何文档的任何答案。所以请帮我解释一下: dbutils.fs.mount(
azure - Databricks FileInfo : java. lang.ClassCastException : com. databricks.backend.daemon.dbutils.FileInfo 无法转换为 com.databricks.service.FileInfo
尝试遍历已安装的 Databricks 卷中的目录时遇到 ClassCastException。 java.lang.ClassCastException: com.databricks.backen
azure - Databricks FileInfo : java. lang.ClassCastException : com. databricks.backend.daemon.dbutils.FileInfo 无法转换为 com.databricks.service.FileInfo
尝试遍历已安装的 Databricks 卷中的目录时遇到 ClassCastException。 java.lang.ClassCastException: com.databricks.backen
databricks - 如何从 Databricks mnt 目录中删除文件夹/文件
我正在运行 Databricks Community Edition，我想从以下 mnt 目录中删除文件 /mnt/driver-daemon/jars 我运行 dbutils 命令: dbutils
databricks - 如何使用 .netrc 文件验证 Databricks API
我已经在我的机器上创建了“.netrc”文件并尝试在 databricks rest api 调用下面。但它总是给出未经授权的错误。如何在 Databricks 中创建 .netrc 文件？ curl
azure-databricks - 有没有办法恢复 Azure Databricks 中已删除的数据？
没有意识到 shift+enter 运行一个单元格。我正在写一个 delete from table 并按下 shift enter 删除了表中的所有数据。最佳答案在 Delta Lake 表中，
azure-databricks - Databricks 和 Azure 文件
我需要访问 Azure Files来自 Azure Databricks .根据文档 Azure Blobs受支持，但我需要此代码来处理 Azure 文件: dbutils.fs.mount( s
azure-databricks - 使用服务主体从 DataBricks 连接到 Synapse
我正在尝试使用服务主体从 Databricks 连接到 Synapse。我已经在集群配置中配置了服务主体 fs.azure.account.auth.type..dfs.core.windows.n

首页

博学

6Ren·AI

商城

azure-databricks - Databricks 版本 7.0 的行为不像版本 6.3 : class java. lang.Long 不能转换为类 java.lang.Integer