apache-spark - 如果在 S3 的 Parquet 文件中发现同一列的不同数据类型，AWS Glue 作业会在 Redshift 中创建新列-6ren

apache-spark - 如果在 S3 的 Parquet 文件中发现同一列的不同数据类型，AWS Glue 作业会在 Redshift 中创建新列

转载作者：行者123 更新时间：2023-12-05 03:55:06

25

4

我正在尝试使用 Glue Job 将 S3 中的 Parquet 文件加载到 Redshift 中。当我第一次运行 Glue Job 时，它正在创建表并加载数据，但是当通过更改 1 列的数据类型第二次运行时，作业并没有失败，而是在 Redshift 中创建新列并附加数据。

例如:在这里，我正在更改整数的数据类型

FileName **abc**
Code,Name,Amount
'A','XYZ',200.00

FileName **xyz**
Code,Name,Amount
'A','XYZ',200.00

在 Redshift 中

Output after processing both the above file:
Code Name Amount Amount_String
A    XYZ  200.00
A    XYZ         200.00

代码

import os
import sys
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession
from pyspark.sql.window import Window
from pyspark.sql import SQLContext
from datetime import date

from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.dynamicframe import DynamicFrame

## @params: [TempDir, JOB_NAME]
args = getResolvedOptions(sys.argv, ['TempDir','JOB_NAME'])

spark = SparkSession.builder.getOrCreate()
glueContext = GlueContext(SparkContext.getOrCreate())

spark.conf.set('spark.sql.session.timeZone', 'Europe/London')

#sc = SparkContext()

data_source = "s3://bucket/folder/data/"
#read delta and source dataset
employee = spark.read.parquet(data_source)


sq_datasource0 = DynamicFrame.fromDF(employee, glueContext, "new_dynamic_frame")

datasink4 = glueContext.write_dynamic_frame.from_jdbc_conf(frame = sq_datasource0, catalog_connection = "redshiftDB", connection_options = {"dbtable": "employee", "database": "dbname"}, redshift_tmp_dir = args["TempDir"], transformation_ctx = "datasink4")

如果数据类型不匹配问题来自文件，我想使 Glue Job 失败。如果您能提供解决此问题的任何指导，我将不胜感激。

最佳答案

上述问题是由于 Glue dynamicFrame 使用的 Redshift writer 引起的。如果输入数据的特定列中存在空记录，这将使用 alter table query 为 Redshfit 中的表创建新列。

为避免此行为，将 Glue dynamicFrame 转换为 Spark 数据帧并写入 redshift。

val amDf = am.toDF()
amDf.write.format("com.databricks.spark.redshift")
    .mode(SaveMode.Overwrite)
    .option("url", JDBC_URL)
    .option("dbtable", TABLE_NAME)
    .option("user", USER)
    .option("password", PASSWORD)
    .option("aws_iam_role", IAM_ROLE)
    .option("tempdir", args("TempDir"))
    .save()

关于apache-spark - 如果在 S3 的 Parquet 文件中发现同一列的不同数据类型，AWS Glue 作业会在 Redshift 中创建新列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60482835/

25

4

0

文章推荐： c# - 组件在调用 StateHasChanged 后不会重新渲染

文章推荐： Laravel 单元测试输出写入日志文件

haskell - 类型家庭类型黑客
我正在尝试编写一个相当多态的库。我遇到了一种更容易表现出来却很难说出来的情况。它看起来有点像这样: {-# LANGUAGE ScopedTypeVariables #-} {-# LANGUAGE
javascript - 这是如何运作的？类型 = 类型 || 'any' ;
谁能解释一下这个表达式是如何工作的？ type = type || 'any'; 这是否意味着如果类型未定义则使用“任意”？最佳答案如果 type 为“falsy”(即 false，或 undef
f# - 类型 'obj' 不是接口(interface)类型
我有一个界面，在IAnimal.fs中， namespace Kingdom type IAnimal = abstract member Eat : Food -> unit 以及另一个成功
c++ - 类型(变量)与(类型)变量
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: What is the difference between (type)value and type(va
c# - 默认(可空(类型))与默认(类型)
在 C# 中，default(Nullable) 之间有区别吗？ (或 default(long?) )和 default(long) ？ Long只是一个例子，它可以是任何其他struct类型。最
scala - 如何定义一个 HList 类型，但基于另一个 HList 类型
假设我有一个案例类: case class Foo(num: Int, str: String, bool: Boolean) 现在我还有一个简单的包装器: sealed trait Wrapper[
c# - 如何在运行时定义委托(delegate)类型(即动态委托(delegate)类型)
这个问题在这里已经有了答案: Create C# delegate type with ref parameter at runtime (1 个回答) 关闭 2 年前。为了即时创建委托(dele
python - dct 中的断言失败(类型 == CV_32FC1 || 类型 == CV_64FC1)
我正在尝试获取图像的 dct。一开始我遇到了错误 The function/feature is not implemented (Odd-size DCT's are not implemented
ios - PList 类型？应用程序/x-plist 类型
我正在尝试使用 AFNetworking 的 AFPropertyListRequestOperation，但是当我尝试下载它时，出现错误预期的内容类型{( “应用程序/x-plist” )}, 得
javascript - 元素隐式具有 'any' 类型，因为索引表达式不是 'number' 类型
我在下面收到错误。我知道这段代码的意思，但我不知道界面应该是什么样子: Element implicitly has an 'any' type because index expression is
swift2 - 类型 'Error' 约束为非协议(protocol)类型，即使类型是协议(protocol)
我尝试将 SignalType 从 ReactiveCocoa 扩展为自定义 ErrorType，代码如下所示 enum MyError: ErrorType { // .. cases }
scala - 如何使用 Scala 的 this 类型、抽象类型等来实现 Self 类型？
我无法在任何其他问题中找到答案。假设我有一个抽象父类(super class) Abstract0，它有两个子类 Concrete1 和 Concrete1。我希望能够在 Abstract0 中定义类
日期时间字段上的 MySQL 索引不是 RANGE 类型，而是使用 INDEX 类型
我想知道为什么这个索引没有用在 RANGE 类型中，而是用在 INDEX 中: 索引: CREATE INDEX myindex ON orders(order_date); 查询: EXPLAIN
java - IncompleteClassChangeError ...原本应该是 direct 类型，但结果却发现是 virtual 类型
我正在使用 RxJava，现在我尝试通过提供 lambda 来订阅可观察对象: observableProvider.stringForKey(CURRENT_DELETED_ID) .sub
javascript - MIME 类型 ('text/html' ) 不是受支持的样式表 MIME 类型
我已经尝试了几乎所有解决问题的方法，其中包括。为提供类型使用app.use(express.static('public'))还有更多，但我似乎无法为此找到解决方案。 index.js : imp
css - 哪个更快？输入[类型 ="submit"] 或 [类型 ="submit"]
以下哪个 CSS 选择器更快？ input[type="submit"] { /* styles */ } 或 [type="submit"] { /* styles */ } 只是好
java - 通过构造函数参数表达的不满足的依赖关系，索引为 0 类型 -> 没有合格的 bean 类型
我不知道这个设置有什么问题，我在 IDEA 中获得了所有注释(@Controller、@Repository、@Service)，它在行号左侧显示 bean，然后转到该 bean。这是错误: 14-
c - jni 回调适用于 java 类型，但不适用于 c 类型
我听从了建议 registering java function as a callback in C function并且可以使用“简单”类型(例如整数和字符串)进行回调，例如: jstring j
java - 将 java 类型 string[] 映射到 oracle 类型
有一些 java 类，加载到 Oracle 数据库(版本 11g)和 pl/sql 函数包装器: create or replace function getDataFromJava( in_uLis
javascript - 元素隐式具有 'any' 类型，因为索引表达式不是 'number' 类型 [7015]
我已经从 David Walsh 的 css 动画回调中获取代码并将其修改为 TypeScript。但是，我收到一个错误，我不知道为什么: interface IBrowserPrefix { [

首页

博学

6Ren·AI

商城

apache-spark - 如果在 S3 的 Parquet 文件中发现同一列的不同数据类型，AWS Glue 作业会在 Redshift 中创建新列