azure-data-lake - U-SQL 并行读取 SQL 表-6ren

azure-data-lake - U-SQL 并行读取 SQL 表

转载作者：行者123 更新时间：2023-12-01 11:19:21

27

4

在我的场景中，我使用 U-SQL 将数据从 MS SQL DB 提取到 Azure Data Lake。我的表很大，有超过 1600 万条记录(很快就会更多)。我只是执行 SELECT a, b, c FROM dbo.myTable;

然而，我意识到只有一个顶点用于从表中读取数据。

我的问题是，在读取 SQL 表时是否有任何方法可以利用并行性？

最佳答案

我认为 U-SQL 尚不支持外部数据源的并行性(尽管很高兴得到更正)。如果您觉得这是一项重要的缺失功能，您可以在此处创建请求并为其投票:

https://feedback.azure.com/forums/327234-data-lake

作为解决方法，您可以根据数据源中可用的列手动并行化查询。例如按日期

// External query working
USE DATABASE yourADLADB;

// Create the external query for year 2016
@results2016 =
    SELECT *
    FROM EXTERNAL yourSQLDBDataSource EXECUTE 
        @"SELECT * FROM dbo.yourBigTable WITH (NOLOCK) WHERE yourDateCol Between '1 Jan 2016 and 31 Dec 2016'";


// Create the external query for year 2017
@results2017 =
    SELECT *
    FROM EXTERNAL yourSQLDBDataSource EXECUTE 
        @"SELECT * FROM dbo.yourBigTable WITH (NOLOCK) WHERE yourDateCol Between '1 Jan 2017 and 31 Dec 2017";


// Output 2016 results
OUTPUT @results2016
TO "/output/bigTable/results2016.csv"
USING Outputters.Csv();


// Output 2017 results
OUTPUT @results2017
TO "/output/bigTable/results2017.csv"
USING Outputters.Csv();

现在，我通过将文件分成多个部分创建了一个不同的问题。但是，您可以使用也将并行化的文件集来读取这些内容，例如:

@input =
    EXTRACT 
            ... // your column list
    FROM "/output/bigTable/results{year}.csv"
    USING Extractors.Csv();

鉴于 ADLA 和 U-SQL 为您提供了在数据所在位置查询数据的能力，我想问您为什么选择将如此大的文件移动到您的数据湖中。你能进一步解释一下吗？

关于azure-data-lake - U-SQL 并行读取 SQL 表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45794356/

27

4

0

文章推荐： java - 如何删除 Simpleframework XML 上的元素列表 null

文章推荐： java - 返回 native 字节缓冲区的 Java 方法的 JNI GetMethodID

文章推荐： uber-api - 使用 Apple Pay 作为付款方式请求 Uber 乘车

azure-data-lake - Azure Data Lake Analytics 中的内存限制
我已经为 NetCDF 文件实现了一个自定义提取器，并在输出变量之前将变量加载到内存中的数组中。有些数组可能很大，所以我想知道 ADLA 中的内存限制是多少。您是否可以分配最大内存量？最佳答案每个
azure-data-lake - 优化 Azure Data Lake 中的最大并行度
准则是什么，或者我们在哪里可以找到设计系统以实现最佳并行性的准则。我知道数据被拆分到各个节点并为此进行了优化。我在文件中的数据目前包含多个客户、站点、产品和用户。我需要按客户、站点、产品进行聚合，这
azure - 如何从按日期文件夹分区数据的 Azure Data Lake 转换到 Delta Lake
我拥有一个 Azure Data Lake gen2，其数据按日期时间嵌套文件夹进行分区。我想向我的团队提供 Delta Lake 格式，但我不确定是否应该创建一个新的存储帐户并将数据复制为 Del
azure-data-lake - 我可以有任何关于 Azure Data Lake Internals 的书籍吗？
我不想将 ADL 和 ADLA 用作黑匣子。我需要了解齿轮如何在引擎盖下旋转才能有效地使用它。我在哪里可以找到描述内部结构的信息: 如何处理 U-SQL 查询并行性是如何工作的如何在 ADL 中
azure-data-lake - 是否有适用于 Azure Data Lake Store 的本地模拟器
在为 Azure 存储帐户开发时，我可以运行 Microsoft Storage Emulator 来在本地保留 Blob、队列和表，而无需在线连接到 Azure。 Azure Data Lake S
azure - "Data Lake Store"的 Azure Data Lake 存储连接字符串是什么
我正在尝试针对 AzureStorageEmulator 为我的 Azure Data Lake Storage (v1) 存储库编写单元测试。这可能吗？如果是这样，创建客户端的参数应该使用什么？另外
azure - Azure Synapse 中 Delta Lake 和 Lake 数据库之间的区别
我正在 Azure Synapse 中构建 Lakehouse 架构，并且对使用 Delta-lake 还是 Lake 数据库犹豫不决。两者似乎具有大致相同的功能 - 我可以使用 Spark 执行
azure - Azure Synapse 中 Delta Lake 和 Lake 数据库之间的区别
我正在 Azure Synapse 中构建 Lakehouse 架构，并且对使用 Delta-lake 还是 Lake 数据库犹豫不决。两者似乎具有大致相同的功能 - 我可以使用 Spark 执行
azure-data-lake - 是否可以从 Azure Data Lake Analytics 中删除已完成的作业？
我有很多已完成的工作堆积如山，所以我想清理它们。 Should we delete DataLake Analytic Job after completion? 的答案似乎表明可以删除作业，但我不知
azure - 将不同类型的文件从 Gen1 Azur Lake 复制到具有属性的 Azur Gen2 Lake(如上次更新)
我需要将所有数据从 Azur 数据湖 Gen1 迁移到 Lake Gen2。在我的湖中，我们混合了不同类型的文件(.txt、.zip、.json 等)。我们希望将它们按原样移至 GEN2 湖。除此之外
azure-data-lake - 如何在 Azure Data Lake 中安排 U-SQL 查询？
我想每天在 azure 数据湖中执行一个查询。我们可以在 azure 数据湖中安排 U-SQL 查询吗？最佳答案目前，Data Lake Analytics 中没有内置方式来安排 U-SQL 作业
azure-data-lake - 使用 Azure Data Lake Analytics 处理事件中心捕获 AVRO 文件
我正在尝试从事件中心捕获生成的 AVRO 文件中提取数据。在大多数情况下，这可以完美地工作。但是某些文件给我带来了问题。当我运行以下 U-SQL 作业时，出现错误: USE DATABASE Metr
azure - Azure 的 "Data Lake Storage Gen2"和 "Data Lake Gen2"之间有什么区别？
我对在 Azure 上创建存储帐户时可用的选项感到困惑，正在寻求澄清。如果我从 Azure 市场创建新的“存储帐户”(标准层)，系统会在高级设置中激活“Data Lake Storage Gen2”
azure - Azure Data Lake Store 上的公共(public)数据集可与 Data Lake Analytics 一起使用
Azure Data Lake 是否存储公共(public)数据集以与 Azure Data Lake Analytics 一起使用？ Google BigQuery 提供了类似的公共(public)
excel - 如何在 Azure Data Lake、Azure SQL、Azure Data Lake Analytics 和 Azure SQL VM 之间做出决定？
我是 Azure 新手，因此尝试了解何时以及如何使用哪些服务。目前，我有一个 Excel 文件，其中有几个选项卡，需要进行一些转换才能创建一个 Excel 文件选项卡(在源文件本身内 - 比如说选项
delta-lake - 三角洲湖表元数据
Delta Lake 在哪里存储表元数据信息。我在我的独立机器上使用 spark 2.6(不是 Databricks)。我的假设是，如果我重新启动 spark，将删除在 delta lake spar
delta-lake - 内部部署的三角洲湖
是否可以在本地实现三角洲湖？如果是，需要安装什么软件/工具？我正在尝试在内部实现一个 delta 湖来分析一些日志文件和数据库表。我当前的机器装有 ubuntu，apache spark。不确定还需
delta-lake - 如何手动检查增量表？
Delta Lake 每 10 个版本自动创建一个检查点。有没有办法手动创建检查点？最佳答案 import org.apache.spark.sql.delta.DeltaLog DeltaLog.
azure - 如何防止重复条目进入Azure存储的Delta Lake
我有一个以 delta 格式存储到 Adls 中的数据框，现在当我尝试将新的更新行附加到该 delta Lake 时，有什么方法可以删除 delta 中的旧现有记录并添加新记录更新记录。 Delta
hadoop - 从头开始构建Data Lake
我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理和目的。遍布互联网。但是，当出现问题时，如何从头开始构建一个问题就没有了。我想了解是否: Data warehouse + Hadoop = D

首页

博学

6Ren·AI

商城

azure-data-lake - U-SQL 并行读取 SQL 表