webhdfs - Azure Data Lake Store 并发性-6ren

webhdfs - Azure Data Lake Store 并发性

转载作者：行者123 更新时间：2023-12-02 14:56:10

28

4

我一直在尝试使用 Azure Data Lake Store，并且在文档中 Microsoft 声称该系统针对低延迟小文件写入进行了优化。测试它我尝试对单个文件执行大量并行任务写入，但此方法在大多数情况下会失败并返回错误请求。此链接https://issues.apache.org/jira/secure/attachment/12445209/appendDesign3.pdf显示 HDFS 无法处理单个文件上的并发追加，因此我再次尝试使用 API 中找到的 ConcurrentAppendAsync 方法，但尽管该方法不会崩溃，但我的文件从未在存储中被修改。

最佳答案

您发现关于并行写入如何工作的信息是正确的。我假设您已经阅读了 documentation ConcurrentAppendAsync 的。

那么，在您的情况下，您是否使用相同的文件进行 Webhdfs 写入测试和 ConcurrentAppendAsync？如果是这种情况，那么 ConcurrentAppendAsync 将不起作用，如文档中所述。但在这种情况下你应该会遇到错误。

无论如何，请让我们知道发生了什么，我们可以进一步调查。

谢谢

萨钦·谢思

项目经理 - Azure 数据湖

关于webhdfs - Azure Data Lake Store 并发性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35928800/

28

4

0

文章推荐： asp.net - 我可以使用多个 DNX 版本吗？

文章推荐： haskell - 列表的 writer monad 的效率如何？

文章推荐： angular - 如果连接不处于 'Connected' 状态，则无法发送数据

azure-data-lake - Azure Data Lake Analytics 中的内存限制
我已经为 NetCDF 文件实现了一个自定义提取器，并在输出变量之前将变量加载到内存中的数组中。有些数组可能很大，所以我想知道 ADLA 中的内存限制是多少。您是否可以分配最大内存量？最佳答案每个
azure-data-lake - 优化 Azure Data Lake 中的最大并行度
准则是什么，或者我们在哪里可以找到设计系统以实现最佳并行性的准则。我知道数据被拆分到各个节点并为此进行了优化。我在文件中的数据目前包含多个客户、站点、产品和用户。我需要按客户、站点、产品进行聚合，这
azure - 如何从按日期文件夹分区数据的 Azure Data Lake 转换到 Delta Lake
我拥有一个 Azure Data Lake gen2，其数据按日期时间嵌套文件夹进行分区。我想向我的团队提供 Delta Lake 格式，但我不确定是否应该创建一个新的存储帐户并将数据复制为 Del
azure-data-lake - 我可以有任何关于 Azure Data Lake Internals 的书籍吗？
我不想将 ADL 和 ADLA 用作黑匣子。我需要了解齿轮如何在引擎盖下旋转才能有效地使用它。我在哪里可以找到描述内部结构的信息: 如何处理 U-SQL 查询并行性是如何工作的如何在 ADL 中
azure-data-lake - 是否有适用于 Azure Data Lake Store 的本地模拟器
在为 Azure 存储帐户开发时，我可以运行 Microsoft Storage Emulator 来在本地保留 Blob、队列和表，而无需在线连接到 Azure。 Azure Data Lake S
azure - "Data Lake Store"的 Azure Data Lake 存储连接字符串是什么
我正在尝试针对 AzureStorageEmulator 为我的 Azure Data Lake Storage (v1) 存储库编写单元测试。这可能吗？如果是这样，创建客户端的参数应该使用什么？另外
azure - Azure Synapse 中 Delta Lake 和 Lake 数据库之间的区别
我正在 Azure Synapse 中构建 Lakehouse 架构，并且对使用 Delta-lake 还是 Lake 数据库犹豫不决。两者似乎具有大致相同的功能 - 我可以使用 Spark 执行
azure - Azure Synapse 中 Delta Lake 和 Lake 数据库之间的区别
我正在 Azure Synapse 中构建 Lakehouse 架构，并且对使用 Delta-lake 还是 Lake 数据库犹豫不决。两者似乎具有大致相同的功能 - 我可以使用 Spark 执行
azure-data-lake - 是否可以从 Azure Data Lake Analytics 中删除已完成的作业？
我有很多已完成的工作堆积如山，所以我想清理它们。 Should we delete DataLake Analytic Job after completion? 的答案似乎表明可以删除作业，但我不知
azure - 将不同类型的文件从 Gen1 Azur Lake 复制到具有属性的 Azur Gen2 Lake(如上次更新)
我需要将所有数据从 Azur 数据湖 Gen1 迁移到 Lake Gen2。在我的湖中，我们混合了不同类型的文件(.txt、.zip、.json 等)。我们希望将它们按原样移至 GEN2 湖。除此之外
azure-data-lake - 如何在 Azure Data Lake 中安排 U-SQL 查询？
我想每天在 azure 数据湖中执行一个查询。我们可以在 azure 数据湖中安排 U-SQL 查询吗？最佳答案目前，Data Lake Analytics 中没有内置方式来安排 U-SQL 作业
azure-data-lake - 使用 Azure Data Lake Analytics 处理事件中心捕获 AVRO 文件
我正在尝试从事件中心捕获生成的 AVRO 文件中提取数据。在大多数情况下，这可以完美地工作。但是某些文件给我带来了问题。当我运行以下 U-SQL 作业时，出现错误: USE DATABASE Metr
azure - Azure 的 "Data Lake Storage Gen2"和 "Data Lake Gen2"之间有什么区别？
我对在 Azure 上创建存储帐户时可用的选项感到困惑，正在寻求澄清。如果我从 Azure 市场创建新的“存储帐户”(标准层)，系统会在高级设置中激活“Data Lake Storage Gen2”
azure - Azure Data Lake Store 上的公共(public)数据集可与 Data Lake Analytics 一起使用
Azure Data Lake 是否存储公共(public)数据集以与 Azure Data Lake Analytics 一起使用？ Google BigQuery 提供了类似的公共(public)
excel - 如何在 Azure Data Lake、Azure SQL、Azure Data Lake Analytics 和 Azure SQL VM 之间做出决定？
我是 Azure 新手，因此尝试了解何时以及如何使用哪些服务。目前，我有一个 Excel 文件，其中有几个选项卡，需要进行一些转换才能创建一个 Excel 文件选项卡(在源文件本身内 - 比如说选项
delta-lake - 三角洲湖表元数据
Delta Lake 在哪里存储表元数据信息。我在我的独立机器上使用 spark 2.6(不是 Databricks)。我的假设是，如果我重新启动 spark，将删除在 delta lake spar
delta-lake - 内部部署的三角洲湖
是否可以在本地实现三角洲湖？如果是，需要安装什么软件/工具？我正在尝试在内部实现一个 delta 湖来分析一些日志文件和数据库表。我当前的机器装有 ubuntu，apache spark。不确定还需
delta-lake - 如何手动检查增量表？
Delta Lake 每 10 个版本自动创建一个检查点。有没有办法手动创建检查点？最佳答案 import org.apache.spark.sql.delta.DeltaLog DeltaLog.
azure - 如何防止重复条目进入Azure存储的Delta Lake
我有一个以 delta 格式存储到 Adls 中的数据框，现在当我尝试将新的更新行附加到该 delta Lake 时，有什么方法可以删除 delta 中的旧现有记录并添加新记录更新记录。 Delta
hadoop - 从头开始构建Data Lake
我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理和目的。遍布互联网。但是，当出现问题时，如何从头开始构建一个问题就没有了。我想了解是否: Data warehouse + Hadoop = D

首页

博学

6Ren·AI

商城

webhdfs - Azure Data Lake Store 并发性