- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在我的场景中,我使用 U-SQL 将数据从 MS SQL DB 提取到 Azure Data Lake。我的表很大,有超过 1600 万条记录(很快就会更多)。我只是执行 SELECT a, b, c FROM dbo.myTable;
然而,我意识到只有一个顶点用于从表中读取数据。
我的问题是,在读取 SQL 表时是否有任何方法可以利用并行性?
最佳答案
我认为 U-SQL 尚不支持外部数据源的并行性(尽管很高兴得到更正)。如果您觉得这是一项重要的缺失功能,您可以在此处创建请求并为其投票:
https://feedback.azure.com/forums/327234-data-lake
作为解决方法,您可以根据数据源中可用的列手动并行化查询。例如按日期
// External query working
USE DATABASE yourADLADB;
// Create the external query for year 2016
@results2016 =
SELECT *
FROM EXTERNAL yourSQLDBDataSource EXECUTE
@"SELECT * FROM dbo.yourBigTable WITH (NOLOCK) WHERE yourDateCol Between '1 Jan 2016 and 31 Dec 2016'";
// Create the external query for year 2017
@results2017 =
SELECT *
FROM EXTERNAL yourSQLDBDataSource EXECUTE
@"SELECT * FROM dbo.yourBigTable WITH (NOLOCK) WHERE yourDateCol Between '1 Jan 2017 and 31 Dec 2017";
// Output 2016 results
OUTPUT @results2016
TO "/output/bigTable/results2016.csv"
USING Outputters.Csv();
// Output 2017 results
OUTPUT @results2017
TO "/output/bigTable/results2017.csv"
USING Outputters.Csv();
现在,我通过将文件分成多个部分创建了一个不同的问题。但是,您可以使用也将并行化的文件集来读取这些内容,例如:
@input =
EXTRACT
... // your column list
FROM "/output/bigTable/results{year}.csv"
USING Extractors.Csv();
鉴于 ADLA 和 U-SQL 为您提供了在数据所在位置查询数据的能力,我想问您为什么选择将如此大的文件移动到您的数据湖中。你能进一步解释一下吗?
关于azure-data-lake - U-SQL 并行读取 SQL 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45794356/
我已经为 NetCDF 文件实现了一个自定义提取器,并在输出变量之前将变量加载到内存中的数组中。有些数组可能很大,所以我想知道 ADLA 中的内存限制是多少。您是否可以分配最大内存量? 最佳答案 每个
准则是什么,或者我们在哪里可以找到设计系统以实现最佳并行性的准则。我知道数据被拆分到各个节点并为此进行了优化。 我在文件中的数据目前包含多个客户、站点、产品和用户。我需要按客户、站点、产品进行聚合,这
我拥有一个 Azure Data Lake gen2,其数据按日期时间嵌套文件夹进行分区。 我想向我的团队提供 Delta Lake 格式,但我不确定是否应该创建一个新的存储帐户并将数据复制为 Del
我不想将 ADL 和 ADLA 用作黑匣子。我需要了解齿轮如何在引擎盖下旋转才能有效地使用它。 我在哪里可以找到描述内部结构的信息: 如何处理 U-SQL 查询 并行性是如何工作的 如何在 ADL 中
在为 Azure 存储帐户开发时,我可以运行 Microsoft Storage Emulator 来在本地保留 Blob、队列和表,而无需在线连接到 Azure。 Azure Data Lake S
我正在尝试针对 AzureStorageEmulator 为我的 Azure Data Lake Storage (v1) 存储库编写单元测试。这可能吗?如果是这样,创建客户端的参数应该使用什么?另外
我正在 Azure Synapse 中构建 Lakehouse 架构,并且对使用 Delta-lake 还是 Lake 数据库犹豫不决。 两者似乎具有大致相同的功能 - 我可以使用 Spark 执行
我正在 Azure Synapse 中构建 Lakehouse 架构,并且对使用 Delta-lake 还是 Lake 数据库犹豫不决。 两者似乎具有大致相同的功能 - 我可以使用 Spark 执行
我有很多已完成的工作堆积如山,所以我想清理它们。 Should we delete DataLake Analytic Job after completion? 的答案似乎表明可以删除作业,但我不知
我需要将所有数据从 Azur 数据湖 Gen1 迁移到 Lake Gen2。在我的湖中,我们混合了不同类型的文件(.txt、.zip、.json 等)。我们希望将它们按原样移至 GEN2 湖。除此之外
我想每天在 azure 数据湖中执行一个查询。我们可以在 azure 数据湖中安排 U-SQL 查询吗? 最佳答案 目前,Data Lake Analytics 中没有内置方式来安排 U-SQL 作业
我正在尝试从事件中心捕获生成的 AVRO 文件中提取数据。在大多数情况下,这可以完美地工作。但是某些文件给我带来了问题。当我运行以下 U-SQL 作业时,出现错误: USE DATABASE Metr
我对在 Azure 上创建存储帐户时可用的选项感到困惑,正在寻求澄清。 如果我从 Azure 市场创建新的“存储帐户”(标准层),系统会在高级设置中激活“Data Lake Storage Gen2”
Azure Data Lake 是否存储公共(public)数据集以与 Azure Data Lake Analytics 一起使用? Google BigQuery 提供了类似的公共(public)
我是 Azure 新手,因此尝试了解何时以及如何使用哪些服务。 目前,我有一个 Excel 文件,其中有几个选项卡,需要进行一些转换才能创建一个 Excel 文件选项卡(在源文件本身内 - 比如说选项
Delta Lake 在哪里存储表元数据信息。我在我的独立机器上使用 spark 2.6(不是 Databricks)。我的假设是,如果我重新启动 spark,将删除在 delta lake spar
是否可以在本地实现三角洲湖?如果是,需要安装什么软件/工具? 我正在尝试在内部实现一个 delta 湖来分析一些日志文件和数据库表。我当前的机器装有 ubuntu,apache spark。不确定还需
Delta Lake 每 10 个版本自动创建一个检查点。有没有办法手动创建检查点? 最佳答案 import org.apache.spark.sql.delta.DeltaLog DeltaLog.
我有一个以 delta 格式存储到 Adls 中的数据框,现在当我尝试将新的更新行附加到该 delta Lake 时,有什么方法可以删除 delta 中的旧现有记录并添加新记录更新记录。 Delta
我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理和目的。遍布互联网。但是,当出现问题时,如何从头开始构建一个问题就没有了。我想了解是否: Data warehouse + Hadoop = D
我是一名优秀的程序员,十分优秀!