azure-data-lake - 蔚蓝数据湖 u-sql 数据透视表-6ren

azure-data-lake - 蔚蓝数据湖 u-sql 数据透视表

转载作者：行者123 更新时间：2023-12-04 07:00:36

25

4

我喜欢 Azure Data Lake，但缺乏文档可能会减慢采用速度。我希望有人比我有更多的 U-SQL 经验。

尝试从 Microsoft.Analytics.Interfaces 下可用的内容和通过 U-SQL 解释器派生，但运气不佳。似乎不支持动态 sql 在运行时定义行集的模式，并且 IUpdatableRow 的模式是只读的，因此处理器方法不可行。 U-SQL 中没有开箱即用的 PIVOT 功能。

我还想也许我可以一起处理行集并编写一个自定义输出器来进行数据透视但无法弄清楚。

可能有一种非常简单的方法可以做到这一点，因为它是标准的枢轴操作。对于不确定数量的 ColA 和 ColB 值，您将如何以高效的方式 reshape 从 I 到 II 的行集？

我

|ColA |ColB |ColC|
|1    |A    |30  |
|1    |B    |70  |
|1    |ZA   |12  |
|2    |C    |22  |
|2    |A    |13  |

二

|ID   |A    |B    |C   |...... |ZA   |.....
|1    |30   |70   |0   |       |12   |
|2    |13   |0    |22  |...... |0    |.....

最佳答案

注意 PIVOT/UNPIVOT 语法已添加到 U-SQL March 2017 .

使用上面的示例数据:

@t = SELECT *
     FROM(
        VALUES
        ( 1, "A", 30 ),
        ( 1, "B", 70 ),
        ( 1, "ZA", 12 ),
        ( 2, "C", 22 ),
        ( 2, "A", 13 ),
        ( 2, "ABC", 42)
     ) AS T(ColA, ColB, ColC);


@p =
    SELECT Column_0 AS id, Column_1 AS a
    FROM @t
      PIVOT (MAX(ColC) FOR ColB IN ("A" AS [A], "B" AS [B], "C" AS [C], "ZA" AS [ZA], "ABC" AS [ABC])
           ) AS pvt;


OUTPUT @p
TO "/output/pivot3.csv"
USING Outputters.Csv();

关于azure-data-lake - 蔚蓝数据湖 u-sql 数据透视表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33978182/

25

4

0

文章推荐： sql-server-2008 - 在 EF4 中控制 ArithAbort

文章推荐： oracle - ORA-02014- 如何更新表中随机选择的行？

文章推荐： atom-editor - 是否可以根据文件类型使用不同的主题？

azure-data-lake - Azure Data Lake Analytics 中的内存限制
我已经为 NetCDF 文件实现了一个自定义提取器，并在输出变量之前将变量加载到内存中的数组中。有些数组可能很大，所以我想知道 ADLA 中的内存限制是多少。您是否可以分配最大内存量？最佳答案每个
azure-data-lake - 优化 Azure Data Lake 中的最大并行度
准则是什么，或者我们在哪里可以找到设计系统以实现最佳并行性的准则。我知道数据被拆分到各个节点并为此进行了优化。我在文件中的数据目前包含多个客户、站点、产品和用户。我需要按客户、站点、产品进行聚合，这
azure - 如何从按日期文件夹分区数据的 Azure Data Lake 转换到 Delta Lake
我拥有一个 Azure Data Lake gen2，其数据按日期时间嵌套文件夹进行分区。我想向我的团队提供 Delta Lake 格式，但我不确定是否应该创建一个新的存储帐户并将数据复制为 Del
azure-data-lake - 我可以有任何关于 Azure Data Lake Internals 的书籍吗？
我不想将 ADL 和 ADLA 用作黑匣子。我需要了解齿轮如何在引擎盖下旋转才能有效地使用它。我在哪里可以找到描述内部结构的信息: 如何处理 U-SQL 查询并行性是如何工作的如何在 ADL 中
azure-data-lake - 是否有适用于 Azure Data Lake Store 的本地模拟器
在为 Azure 存储帐户开发时，我可以运行 Microsoft Storage Emulator 来在本地保留 Blob、队列和表，而无需在线连接到 Azure。 Azure Data Lake S
azure - "Data Lake Store"的 Azure Data Lake 存储连接字符串是什么
我正在尝试针对 AzureStorageEmulator 为我的 Azure Data Lake Storage (v1) 存储库编写单元测试。这可能吗？如果是这样，创建客户端的参数应该使用什么？另外
azure - Azure Synapse 中 Delta Lake 和 Lake 数据库之间的区别
我正在 Azure Synapse 中构建 Lakehouse 架构，并且对使用 Delta-lake 还是 Lake 数据库犹豫不决。两者似乎具有大致相同的功能 - 我可以使用 Spark 执行
azure - Azure Synapse 中 Delta Lake 和 Lake 数据库之间的区别
我正在 Azure Synapse 中构建 Lakehouse 架构，并且对使用 Delta-lake 还是 Lake 数据库犹豫不决。两者似乎具有大致相同的功能 - 我可以使用 Spark 执行
azure-data-lake - 是否可以从 Azure Data Lake Analytics 中删除已完成的作业？
我有很多已完成的工作堆积如山，所以我想清理它们。 Should we delete DataLake Analytic Job after completion? 的答案似乎表明可以删除作业，但我不知
azure - 将不同类型的文件从 Gen1 Azur Lake 复制到具有属性的 Azur Gen2 Lake(如上次更新)
我需要将所有数据从 Azur 数据湖 Gen1 迁移到 Lake Gen2。在我的湖中，我们混合了不同类型的文件(.txt、.zip、.json 等)。我们希望将它们按原样移至 GEN2 湖。除此之外
azure-data-lake - 如何在 Azure Data Lake 中安排 U-SQL 查询？
我想每天在 azure 数据湖中执行一个查询。我们可以在 azure 数据湖中安排 U-SQL 查询吗？最佳答案目前，Data Lake Analytics 中没有内置方式来安排 U-SQL 作业
azure-data-lake - 使用 Azure Data Lake Analytics 处理事件中心捕获 AVRO 文件
我正在尝试从事件中心捕获生成的 AVRO 文件中提取数据。在大多数情况下，这可以完美地工作。但是某些文件给我带来了问题。当我运行以下 U-SQL 作业时，出现错误: USE DATABASE Metr
azure - Azure 的 "Data Lake Storage Gen2"和 "Data Lake Gen2"之间有什么区别？
我对在 Azure 上创建存储帐户时可用的选项感到困惑，正在寻求澄清。如果我从 Azure 市场创建新的“存储帐户”(标准层)，系统会在高级设置中激活“Data Lake Storage Gen2”
azure - Azure Data Lake Store 上的公共(public)数据集可与 Data Lake Analytics 一起使用
Azure Data Lake 是否存储公共(public)数据集以与 Azure Data Lake Analytics 一起使用？ Google BigQuery 提供了类似的公共(public)
excel - 如何在 Azure Data Lake、Azure SQL、Azure Data Lake Analytics 和 Azure SQL VM 之间做出决定？
我是 Azure 新手，因此尝试了解何时以及如何使用哪些服务。目前，我有一个 Excel 文件，其中有几个选项卡，需要进行一些转换才能创建一个 Excel 文件选项卡(在源文件本身内 - 比如说选项
delta-lake - 三角洲湖表元数据
Delta Lake 在哪里存储表元数据信息。我在我的独立机器上使用 spark 2.6(不是 Databricks)。我的假设是，如果我重新启动 spark，将删除在 delta lake spar
delta-lake - 内部部署的三角洲湖
是否可以在本地实现三角洲湖？如果是，需要安装什么软件/工具？我正在尝试在内部实现一个 delta 湖来分析一些日志文件和数据库表。我当前的机器装有 ubuntu，apache spark。不确定还需
delta-lake - 如何手动检查增量表？
Delta Lake 每 10 个版本自动创建一个检查点。有没有办法手动创建检查点？最佳答案 import org.apache.spark.sql.delta.DeltaLog DeltaLog.
azure - 如何防止重复条目进入Azure存储的Delta Lake
我有一个以 delta 格式存储到 Adls 中的数据框，现在当我尝试将新的更新行附加到该 delta Lake 时，有什么方法可以删除 delta 中的旧现有记录并添加新记录更新记录。 Delta
hadoop - 从头开始构建Data Lake
我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理和目的。遍布互联网。但是，当出现问题时，如何从头开始构建一个问题就没有了。我想了解是否: Data warehouse + Hadoop = D

首页

博学

6Ren·AI

商城

azure-data-lake - 蔚蓝数据湖 u-sql 数据透视表

我

二