gpt4 book ai didi

azure-data-lake - 我可以有任何关于 Azure Data Lake Internals 的书籍吗?

转载 作者:行者123 更新时间:2023-12-04 23:15:56 27 4
gpt4 key购买 nike

我不想将 ADL 和 ADLA 用作黑匣子。我需要了解齿轮如何在引擎盖下旋转才能有效地使用它。

我在哪里可以找到描述内部结构的信息:

  • 如何处理 U-SQL 查询
  • 并行性是如何工作的
  • 如何在 ADL 中在低级别组织存储
  • DB 的存储如何在 ADL 中在低级别组织(是行存储还是列存储)
  • 分区的组织方式

  • 有很多书籍和白皮书描述了 RDBMS 引擎的内部结构。它是否适用于 ADL/ADLA?

    有很多人在 Azure 工作。您能否按原样(非正式地)发布任何草稿/白皮书以供使用。

    最佳答案

    其中一些信息可以在我们提供的演示文稿中找到。例如,您可以在我的幻灯片共享帐户中找到其中一些演示文稿:http://www.slideshare.net/MichaelRys .

    回答你上面的一些问题:

    U-SQL 表的当前聚集索引版本存储在目录文件夹中,结构为所谓的结构化流文件。这些是高度可压缩的扩展文件,它们使用面向行的结构,具有独立的元数据和统计数据(可以创建更详细的统计数据)。表结构提供 2 级分区:可寻址分区和内部分布方案(HASH、RANGE 等)。两者都有助于并行化,尽管分布方案更多的是为了性能,而分区更多的是为了数据生命周期管理。对它们没有限制,尽管最佳点是每个分发桶 1GB 到 4GB。

    1 AU 基本上是 1 个容器。 ADLS 在架构上不是 HDFS,而是提供了 WebHDFS API 以实现兼容性。

    关于azure-data-lake - 我可以有任何关于 Azure Data Lake Internals 的书籍吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42389282/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com