snowflake-cloud-data-platform - 横向压平两列，雪花中不重复-6ren

snowflake-cloud-data-platform - 横向压平两列，雪花中不重复

转载作者：行者123 更新时间：2023-12-03 18:32:50

27

4

我有一个查询，它按两个变量分组以获得另一个变量。为了为以后的计算维护我的表结构，我列出了另外两个变量来保存以供查询的下一阶段使用。但是，当我尝试对 listagg() 列进行两次后展平时，我的数据会重复多次。

示例:my_table

   id   |     list1       | code|   list2  | total
--------|-----------------|-----|----------|---
2434166 | 735,768,769,746 | 124 | 21,2,1,6 | 30


select
id,
list1_table.value::int as list1_val,
code,
list2.value::int as list2_val,
total

from my_table
lateral flatten(input=>split(list1, ',')) list1_table,
lateral flatten(input=>split(list2, ',')) list2_table

结果:

   id   |     list1       | code|   list2  | total
--------|-----------------|-----|----------|---
2434166 |      768        | 124 |     2    | 30
2434166 |      735        | 124 |     2    | 30
2434166 |      746        | 124 |     2    | 30
2434166 |      769        | 124 |     2    | 30
2434166 |      768        | 124 |     21   | 30
2434166 |      735        | 124 |     21   | 30
2434166 |      746        | 124 |     21   | 30
2434166 |      769        | 124 |     21   | 30
2434166 |      768        | 124 |     6    | 30
2434166 |      735        | 124 |     6    | 30
2434166 |      746        | 124 |     6    | 30
2434166 |      769        | 124 |     6    | 30
2434166 |      768        | 124 |     1    | 30
2434166 |      735        | 124 |     1    | 30
2434166 |      746        | 124 |     1    | 30
2434166 |      769        | 124 |     1    | 30

我明白发生了什么，但我只是想知道如何获得我想要的结果:

   id   |     list1       | code|   list2  | total
--------|-----------------|-----|----------|---
2434166 |      768        | 124 |     2    | 30
2434166 |      735        | 124 |     21   | 30
2434166 |      746        | 124 |     6    | 30
2434166 |      769        | 124 |     1    | 30

最佳答案

当您注意到自己时，您需要 4 条记录。有两种方法可以做到，都利用 index专栏由 flatten 制作，表示生成值在输入中的位置(参见 Flatten Documentation )

使用 2 个展平和索引选择

第一种方法是获取查询结果，并添加这些索引列，这是一个示例:

select id,
list1_table.value::int as list1_val, list1_table.index as list1_index, code,
list2_table.value::int as list2_val, list2_table.index as list2_index, total
from my_table,
lateral flatten(input=>split(list1, ',')) list1_table,
lateral flatten(input=>split(list2, ',')) list2_table;
---------+-----------+-------------+------+-----------+-------------+-------+
   ID    | LIST1_VAL | LIST1_INDEX | CODE | LIST2_VAL | LIST2_INDEX | TOTAL |
---------+-----------+-------------+------+-----------+-------------+-------+
 2434166 | 735       | 0           | 124  | 21        | 0           | 30    |
 2434166 | 735       | 0           | 124  | 2         | 1           | 30    |
 2434166 | 735       | 0           | 124  | 1         | 2           | 30    |
 2434166 | 735       | 0           | 124  | 6         | 3           | 30    |
 2434166 | 768       | 1           | 124  | 21        | 0           | 30    |
 2434166 | 768       | 1           | 124  | 2         | 1           | 30    |
 2434166 | 768       | 1           | 124  | 1         | 2           | 30    |
 2434166 | 768       | 1           | 124  | 6         | 3           | 30    |
 2434166 | 769       | 2           | 124  | 21        | 0           | 30    |
 2434166 | 769       | 2           | 124  | 2         | 1           | 30    |
 2434166 | 769       | 2           | 124  | 1         | 2           | 30    |
 2434166 | 769       | 2           | 124  | 6         | 3           | 30    |
 2434166 | 746       | 3           | 124  | 21        | 0           | 30    |
 2434166 | 746       | 3           | 124  | 2         | 1           | 30    |
 2434166 | 746       | 3           | 124  | 1         | 2           | 30    |
 2434166 | 746       | 3           | 124  | 6         | 3           | 30    |
---------+-----------+-------------+------+-----------+-------------+-------+

如您所见，您感兴趣的行是具有相同索引的行。

因此，要通过在横向连接发生后选择这些行来获得结果:

select id,
list1_table.value::int as list1_val, code,
list2_table.value::int as list2_val, total
from my_table,
lateral flatten(input=>split(list1, ',')) list1_table,
lateral flatten(input=>split(list2, ',')) list2_table 
where list1_table.index = list2_table.index;
---------+-----------+------+-----------+-------+
   ID    | LIST1_VAL | CODE | LIST2_VAL | TOTAL |
---------+-----------+------+-----------+-------+
 2434166 | 735       | 124  | 21        | 30    |
 2434166 | 768       | 124  | 2         | 30    |
 2434166 | 769       | 124  | 1         | 30    |
 2434166 | 746       | 124  | 6         | 30    |
---------+-----------+------+-----------+-------+

使用 1 flatten + lookup-by-index

一种更简单、更高效、更灵活的方法(如果您有多个这样的数组或例如数组索引相关但不是 1 对 1，则很有用)是仅在一个数组上展平，然后使用生成元素的索引在其他数组中查找值。

下面是一个例子:

select id, list1_table.value::int as list1_val, code, 
split(list2,',')[list1_table.index]::int as list2_val,  -- array lookup here 
total
from my_table, lateral flatten(input=>split(list1, ',')) list1_table;
---------+-----------+------+-----------+-------+
   ID    | LIST1_VAL | CODE | LIST2_VAL | TOTAL |
---------+-----------+------+-----------+-------+
 2434166 | 735       | 124  | 21        | 30    |
 2434166 | 768       | 124  | 2         | 30    |
 2434166 | 769       | 124  | 1         | 30    |
 2434166 | 746       | 124  | 6         | 30    |
---------+-----------+------+-----------+-------+

看看我们如何简单地使用扁平化时产生的索引 list1从 list2 中查找值

关于snowflake-cloud-data-platform - 横向压平两列，雪花中不重复，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36798558/

27

4

0

文章推荐： arm - PPI，SPI和SGI中断有什么区别？

文章推荐： OpenGL : thick and smooth/non-broken lines *in 3D*

文章推荐： MongoDb 查询以获取数组内字段的最大值

文章推荐： ruby-on-rails - Rails日期检查是否可解析

SQL - 雪花 - 内部连接没有按预期工作
我有一张 table ADS像这样在雪花中(每天插入数据)，请注意第 3 行和第 4 行有重复的条目: 身份证REPORT_DATE点击次数印象11月1日2040011月2日2560011月03日80
azure - 雪花 - Azure 事件目录集成
我正在尝试将 Azure Active Directory 与 Snowflake 集成。我已按照本文档中的说明设置了所有内容:https://learn.microsoft.com/en-us/az
regex - 雪花 match_recognize 不包括使用量词的给定模式的所有实例
我正在尝试使用 Snowflake 的 match_recognize 工具跨行匹配特定模式。该模式由 a 和 b 的任意序列组成，前提是排除了 b 的长串。在我的测试用例中，我希望允许最多 4 个
python - 雪花 Pandas pd_writer用NULL写入表
我有一个使用SQLAlchemy引擎和to_sql函数写给Snowflake的Pandas数据框。它工作正常，但由于某些Snowflake限制，我必须使用chunksize选项。这对于较小的数据帧也很
azure - 雪花 insert_query 过程
我需要将一个表的列作为一条记录插入到另一个表中结构如下: table_name Column_name Distinct_Count 这是代码，但我无法插入数据: create or
sql - 雪花 sql 更新如果存在否则插入
我看过其他问题，但似乎雪花不支持 if/else in sql，至少不是其他 sql 服务器支持它的方式。有些人建议使用 javascript，但我想尽可能避免使用它。我正在尝试使用 snowfl
sql - 雪花 sql 更新如果存在否则插入
我看过其他问题，但似乎雪花不支持 if/else in sql，至少不是其他 sql 服务器支持它的方式。有些人建议使用 javascript，但我想尽可能避免使用它。我正在尝试使用 snowfl
javascript - 雪花 UDF 和数据加密
我想知道是否可以创建 UDF 来解密通过使用私钥作为加密值插入到表中的值。我用谷歌搜索真的找不到任何东西。我发现的唯一一件事是，可能有一个使用 JavaScript UDF 和 CryptoJS 的选
python - 雪花 Python Okta 连接
我正在尝试使用 snowflake.connector 库和 OKTA 身份验证将 python 连接到雪花。我正在使用以下代码执行但出现错误: Failed to execute request:
sql - 授予选择 future View 雪花
如何在模式或数据库中的所有 future View 上授予选择权。这工作正常，但我希望该角色也可以访问所有 future 的 View : grant select on view . to rol
sql - 雪花 CLI (Snowsql) - 查询标记
当从 snowsql shell 运行查询时，我可以在 UI 上看到生成的查询 ID。稍后，如果我必须在历史记录中搜索相同的内容，我想搜索我可以定义的查询 ID 或以某种方式标记查询。运行查询时是否
IOS动画效果源代码整理（粒子、雪花、火焰、河流、蒸汽）
学习神奇的粒子发射器，雪花纷纷落下的动画效果，就是通过CAEmitterLayer来实现的，这个layer还能创建火焰，河流，蒸汽的动画效果，常用于游戏开发。 Creating your emit
snowflake-cloud-data-platform - 雪花 - 横向不能在连接的左侧
我有一个变体数据类型，我正在对其执行横向展平，但随后我需要左连接其中一个 json 元素，以从 Snowflake 中的另一个关系表中查找相应 ID 的值。当我这样做时，它给我错误“横向 View 不
sql - 雪花: SELECT "COLUMN" with double quotes
我有一位客户，他们的 Snowflake 实例要求列名称包含双引号。示例:从“lk_category”中选择“类别名称”；有谁知道如何关闭此功能吗？最佳答案雪花documentation确实解释了
snowflake-cloud-data-platform - 雪花 - 任务未运行
我用下面的脚本创建了一个简单的任务，但由于某种原因它从未运行过。 CREATE OR REPLACE TASK dbo.tab_update WAREHOUSE = COMPUTE_WH SCHEDU
snowflake-cloud-data-platform - 雪花 - 如何检索当前正在执行的程序的名称？
我想在 javascript 过程本身中访问 Snowflake 中当前正在执行的过程的名称，并将其存储在一个变量中。当我询问“this”对象时，我可以在 Variant 返回中看到名称，但就 JS
snowflake-cloud-data-platform - 雪花 - 任务未运行
我用下面的脚本创建了一个简单的任务，但由于某种原因它从未运行过。 CREATE OR REPLACE TASK dbo.tab_update WAREHOUSE = COMPUTE_WH SCHEDU
python - 如何可靠地使用 parquet 文件中的日期时间值来填充(雪花)表
TLDR 如何确保 parquet 文件中的日期时间值正确复制到雪花表中？描述我正在使用 parquet 文件将数据更新插入到 snowflake 中的阶段。。然后该文件用于 COPY INTO
snowflake-cloud-data-platform - 雪花 date_trunc 从日期中删除时间
我有雪花列，其中包含 yyyy-mm-dd hh:MM:ss 格式的日期。我使用下面的函数 date_trunc('DAY', '2019-09-23 12:33:25') 输出:2019-09-
snowflake-cloud-data-platform - 雪花 table 阶段
有人可以帮助理解根据雪花文档的以下含义 -“表阶段不支持在加载数据时转换数据(即使用查询作为 COPY 命令的源)。” - 文档链接:- https://docs.snowflake.com/en/u

首页

博学

6Ren·AI

商城

snowflake-cloud-data-platform - 横向压平两列，雪花中不重复