amazon-s3 - 无法将 json - Dynamo db Streams 复制到 redshift-6ren

amazon-s3 - 无法将 json - Dynamo db Streams 复制到 redshift

转载作者：行者123 更新时间：2023-12-02 09:10:53

以下是我正在研究的用例:我在使用新旧图像创建DynamoDB时配置了启用流。我创建了一个Kinesis Firehose传输流目标为 Redshift(Intermediate s3)。

从 Dynamodb，我的流到达 Firhose，并从那里以 JSON (S3 Bucket -Gzip) 形式到达存储桶，如下所示。我的问题是我无法将此 JSON 复制到 redshift。

我无法得到的东西:

1. 不确定 Redshift 中的创建表语句应该是什么
Kinesis firhose 中的 COPY 语法应该是什么。
我应该如何在这里使用 JsonPaths。 Kinesis Data firehouse 设置为仅将 json 返回到我的 s3 存储桶。
如何在 COPY 命令中提及 Maniphest

JSON 加载到 S3 如下所示:

{
    "Keys": {
        "vehicle_id": {
            "S": "x011"
        }
    },
    "NewImage": {
        "heart_beat": {
            "N": "0"
        },
        "cdc_id": {
            "N": "456"
        },
        "latitude": {
            "N": "1.30951"
        },
        "not_deployed_counter": {
            "N": "1"
        },
        "reg_ind": {
            "N": "0"
        },
        "operator": {
            "S": "x"
        },
        "d_dttm": {
            "S": "11/08/2018 2:43:46 PM"
        },
        "z_id": {
            "N": "1267"
        },
        "last_end_trip_dttm": {
            "S": "11/08/2018 1:43:46 PM"
        },
        "land_ind": {
            "N": "1"
        },
        "s_ind": {
            "N": "1"
        },
        "status_change_dttm": {
            "S": "11/08/2018 2:43:46 PM"
        },
        "case_ind": {
            "N": "1"
        },
        "last_po_change_dttm": {
            "S": "11/08/2018 2:43:46 PM"
        },
        "violated_duration": {
            "N": "20"
        },
        "vehicle_id": {
            "S": "x011"
        },
        "longitude": {
            "N": "103.7818"
        },
        "file_status": {
            "S": "Trip_Start"
        },
        "unhired_duration": {
            "N": "10"
        },
        "eo_lat": {
            "N": "1.2345"
        },
        "reply_eo_ind": {
            "N": "1"
        },
        "license_ind": {
            "N": "0"
        },
        "indiscriminately_parked_ind": {
            "N": "0"
        },
        "eo_lng": {
            "N": "102.8978"
        },
        "officer_id": {
            "S": "xxxx@gmail.com"
        },
        "case_status": {
            "N": "0"
        },
        "color_status_cd": {
            "N": "0"
        },
        "parking_id": {
            "N": "2345"
        },
        "ttr_dttm": {
            "S": "11/08/2018 2:43:46 PM"
        },
        "deployed_ind": {
            "N": "1"
        },
        "status": {
            "S": "PI"
        }
    },
    "SequenceNumber": "1200000000000956615967",
    "SizeBytes": 570,
    "ApproximateCreationDateTime": 1535513040,
    "eventName": "INSERT"
}

我的创建表语句:

create table vehicle_status(
    heart_beat integer,
    cdc_id integer,
    latitude integer,   
    not_deployed_counter integer,
    reg_ind integer,
    operator varchar(10),
    d_dttm varchar(30),
    z_id integer,
    last_end_trip_dttm varchar(30),
    land_ind integer,
    s_ind integer,
    status_change_dttm varchar(30), 
    case_ind integer,
    last_po_change_dttm varchar(30),    
    violated_duration integer,
    vehicle_id varchar(8),
    longitude integer,  
    file_status varchar(30),
    unhired_duration integer,
    eo_lat integer,                     
    reply_eo_ind integer,
    license_ind integer,    
    indiscriminately_parked_ind integer,
    eo_lng integer,
    officer_id varchar(50),
    case_status integer,
    color_status_cd integer,
    parking_id integer,
    ttr_dttm varchar(30),
    deployed_ind varchar(3),
  status varchar(8));

以及我的副本声明(手动尝试从 Redshift 重新解决此问题):

COPY vehicle_status (heart_beat, cdc_id, latitude, not_deployed_counter, reg_ind, operator, d_dttm, z_id, last_end_trip_dttm, land_ind, s_ind, status_change_dttm, case_ind, last_po_change_dttm, violated_duration, vehicle_id, longitude, file_status, unhired_duration, eo_lat, reply_eo_ind, license_ind, indiscriminately_parked_ind, eo_lng, officer_id, case_status, color_status_cd, parking_id, ttr_dttm, deployed_ind, status) 
FROM 's3://<my-bucket>/2018/08/29/05/vehicle_status_change-2-2018-08-29-05-24-42-092c330b-e14a-4133-bf4a-5982f2e1f49e.gz' CREDENTIALS 'aws_iam_role=arn:aws:iam::<accountnum>:role/<RedshiftRole>' GZIP json 'auto';

当我尝试上述过程时 - 我开始插入记录 - 但所有列和行均为空。

如何将此 json 格式复制到 redhsift。过去 3 天被困在这里。任何有关此问题的帮助都可以。

S3 存储桶:

Amazon S3/<My-bucket>/2018/08/29/05
Amazon S3/<My-bucket>/manifests/2018/08/29/05

最佳答案

我对亚马逊不太熟悉，但让我尝试回答您的大部分问题，以便您可以继续前进。非常欢迎其他人编辑此答案或其他详细信息。谢谢!

Not Sure what should be the Create table Statement in Redshift

您的创建语句create table vehicle_status(...)没有问题，不过你可以添加 distribution key , sort key和encoding根据您的要求，引用更多here和 here

根据 AWS Kenesis documents ，您的表必须出现在 Redshift 中，因此您可以连接到 Redshift使用psql命令并运行 create statement手动。

What should be the COPY Syntax in Kinesis firhose.

Copy无论您通过 psql 运行它，语法都将保持不变或firhose ，幸运的是，您提出的复制脚本可以正常工作，没有任何错误，我在我的实例中尝试了直接 AWS/SECRET 的小修改关键供应而不是它工作正常，这里是 sql我运行得很好，并将 1 条数据记录复制到表 vehicle_status .

实际上你的json路径结构很复杂，因此json 'auto'不管用。这是工作命令，我创建了一个示例 jsonpath文件包含 4 个示例字段，您可以遵循相同的结构来创建 jsonpath包含所有数据点的文件。

 COPY vehicle_status (heart_beat, cdc_id, operator, status) FROM 's3://XXX/development/test_file.json' CREDENTIALS 'aws_access_key_id=XXXXXXXXXXXXXXXXX;aws_secret_access_key=MYXXXXXXXXXXXXXXXXXXXXXX' json 's3://XXX/development/yourjsonpathfile';

还有你的json path file应具有类似于以下内容。

{
  "jsonpaths": [
    "$['NewImage']['heart_beat']['N']",
    "$['NewImage']['cdc_id']['N']",
    "$['NewImage']['operator']['S']",
    "$['NewImage']['status']['S']"
  ]
}

我已经测试过它并且有效。

How should i use JsonPaths here. Kinesis Data firehouse set to return only json to my s3 bucket.

我用了你的例子json仅数据且有效，因此我认为这里没有问题。

How to mention the Maniphest in the COPY Command

这是个好问题，我可以尝试解释一下，希望您在这里指的是menifest .

如果你看到上面的复制命令，它对于一个或几个文件来说效果很好，但是如果你有很多文件，这里就出现了 menifest 的概念。。直接来自 Amazon 文档，“您无需提供 COPY 命令的对象路径，而是提供显式列出要加载的文件的 JSON 格式文本文件的名称。”

简而言之，如果您想一次加载多个文件，这也是首选方式 Redshift ，您可以创建一个简单的 menifest使用 json 并在复制命令中提供相同的内容。

{ "entries": [ {"url":"s3://mybucket-alpha/2013-10-04-custdata", "mandatory":true}, {"url":"s3://mybucket-alpha/2013-10-05-custdata", "mandatory":true},.... ] }

上传菜单至S3并在复制命令中使用相同的内容，如下所示。

 COPY vehicle_status (heart_beat, cdc_id, latitude, not_deployed_counter, reg_ind, operator, d_dttm, z_id, last_end_trip_dttm, land_ind, s_ind, status_change_dttm, case_ind, last_po_change_dttm, violated_duration, vehicle_id, longitude, file_status, unhired_duration, eo_lat, reply_eo_ind, license_ind, indiscriminately_parked_ind, eo_lng, officer_id, case_status, color_status_cd, parking_id, ttr_dttm, deployed_ind, status) FROM 's3://XXX/development/test.menifest' CREDENTIALS 'aws_access_key_id=XXXXXXXXXXXXXXXXX;aws_secret_access_key=MYXXXXXXXXXXXXXXXXXXXXXX' json 's3://yourbucket/jsonpath' menifest;

这里是 menifest 的详细引用.

我希望这能给您一些想法，如何继续，如果您看到特定错误，我很乐意重新关注答案。

关于amazon-s3 - 无法将 json - Dynamo db Streams 复制到 redshift，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52071859/

文章推荐： group-by - Mysql 加速 max() group by

文章推荐： terminal - 使用 Ncurses 打印双倍大小的字符

文章推荐： assembly - 为什么要蹦床从PLT跳到GOT而不是直接跳到GOT？

文章推荐： sitecore - 尝试在 sitecore 上设置常规链接值时发生崩溃

iphone - 复制(复制)核心数据记录和相关记录
我正在编写一个应用程序，允许用户创建一个“问卷”，然后向其中添加问题。我正在使用核心数据来存储信息。我创建了一个问卷实体，并与问题实体建立了“一对多”关系。我的问题是，如果要允许用户复制(复制)整个调
Android:复制/复制 SharedPreferences
有没有办法复制或复制 SharedPreference？或者我需要从一个变量中获取每个变量，然后将它们放入另一个变量中吗？最佳答案尝试这样的事情: //sp1 is the shared pref
objective-c - @property(复制)与方法[复制]
下面的(A)和(B)有区别吗？ (假设 NON ARC，如果重要的话) // --- (A) --- @interface Zoo : NSObject{} @property (copy) Dog
php - 复制/复制/克隆 mysql_result 对象
我正在尝试将 mysql SELECT 查询保存到文件中，如下所示: $result = mysqli_query($db,$sql); $out = fopen('tmp/csv.csv', 'w'
ios - 使用 CVPixelBufferCreate 复制/复制 CVPixelBufferRef
我需要创建一个 CVPixelBufferRef 的副本，以便能够使用副本中的值以按位方式操作原始像素缓冲区。我似乎无法使用 CVPixelBufferCreate 或 CVPixelBufferCr
c# - 使用 Naudio 复制 Wave 文件 - 复制/附加最新的可用字节
我在 Source 文件夹中有一个 Active wave 录音 wave-file.wav。我需要使用新名称 wave-file-copy.wav 将此文件复制到 Destination 文件夹。
autotools - 文件由 `make dist` 复制，但未由 `make distcheck` 复制
在使用 GNU Autotools 构建的项目中，我有一个脚本需要通过 make 修改以包含安装路径。这是一个小例子: configure.ac: AC_INIT(foobar, 1.0) AC_PR
mysql - 使用 blob/text 复制/复制 SQL 行，怎么做？
我想将 SQL 的行复制到同一个表中。但是在我的表中，我有一个“文本”列。使用此 SQL: CREATE TEMPORARY TABLE produit2 ENGINE=MEMORY SELECT
python Pandas DataFrame 复制(deep=False)vs 复制(deep=True)vs '='
谁能给我解释一下 df2 = df1 df2 = df1.copy() df3 = df1.copy(deep=False) 我已经尝试了所有选项并执行了以下操作: df1 = pd.DataFram
Hazelcast 复制？
Hazelcast 是否具有类似于 Ehcache 的复制？ http://www.ehcache.org/generated/2.9.0/pdf/Ehcache_Replication_Guide.
MySQL远程连接(复制)
我有以下拓扑。一个 Ubuntu 16.04。运行我的全局 MySQL 服务器的 Amazon AWS 上的实例。我想将此服务器用作许多本地主服务器(Windows 机器 MySQL 服务器)的从服务
MySQL 复制
使用 SQLyog，我正在测试表中是否设置了正确的值。我尝试过 SELECT type_service FROM service WHERE email='test@gmail.com' 因此，只输出
Elasticsearch 复制
有人可以提供一些关于如何配置 ElasticSearch 进行复制的说明。我在 Windows 中运行 ES，并且了解如果我在同一台服务器上多次运行 bat 文件，则会启动一个单独的 ES 实例，并且
复制 Thread 数组
一点睛 ThreadGroup 复制线程的两个方法。 public int enumerate(Thread list[]) // 会将 ThreadGroup 中的 active 线程全部复制到
复制 ThreadGroup 数组
一点睛 ThreadGroup 复制线程组的两个方法。 public int enumerate(ThreadGroup list[]) // 相对于 enumerate（list,true） pu
添加新数据中心时用于系统模式的 Cassandra 复制
官方documentation Cassandra 说: Configure the keyspace and create the new datacenter: Use ALTER KEYSPAC
r - 如何在ggplot2中绘制加权黄土平滑度？ [复制]
This question already has answers here: How to weight smoothing by arbitrary factor in ggplot2? (2个答
excel - 复制/导出多列
我们有一个表格来表明对各种俱乐部的兴趣。输出将数据记录在 Excel 电子表格中，其中列有他们的首选姓名、姓氏、电子邮件、代词，以及他们感兴趣的俱乐部的相应列中的“1”(下面的模型)。我们希望为俱乐
vim - 如何使Vim带您回到上次编辑文件时的状态？ [复制]
This question already has answers here: Closed 8 years ago. Possible Duplicate: In vim, how do I get
vba - 复制/粘贴具有形状的单元格
如何复制形状及其所在的单元格？当我手动复制时，形状会跟随单元格，但是当我使用宏进行复制时，我会得到除形状之外的所有其他内容。 Cells(sourceRow, sourceColumn).Copy C

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

amazon-s3 - 无法将 json - Dynamo db Streams 复制到 redshift