apache-spark - 将数百万个小文件从 Azure Data Lake Storage 加载到 Databricks-6ren

apache-spark - 将数百万个小文件从 Azure Data Lake Storage 加载到 Databricks

转载作者：行者123 更新时间：2023-12-02 01:02:17

24

4

我在 Azure Data Lake Store 中有一个分区文件夹结构，其中包含大约 600 万个 json 文件(大小从几 kb 到 2 mb)。我正在尝试使用 Data Bricks 中的 Python 代码从这些文件中提取一些字段。

目前我正在尝试以下操作:

spark.conf.set("dfs.adls.oauth2.access.token.provider.type", "ClientCredential")
spark.conf.set("dfs.adls.oauth2.client.id", "xxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxx")
spark.conf.set("dfs.adls.oauth2.credential", "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx")
spark.conf.set("dfs.adls.oauth2.refresh.url", "https://login.microsoftonline.com/xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxx/oauth2/token")

df = spark.read.json("adl://xxxxxxx.azuredatalakestore.net/staging/filetype/category/2017/*/")

这个例子甚至只读取了文件的一部分，因为它指向“staging/filetype/category/2017/”。它似乎有效，当我运行这些命令时，有一些工作开始了。它只是非常慢。

作业 40 为所有子文件夹编制索引并且速度相对较快

Job 41 检查一组文件，看起来有点快是真的

然后是作业 42，这就是缓慢开始的地方。它似乎与工作 41 进行相同的事件，只是...慢

我感觉我和this thread有类似的问题.但是job 41的速度让我怀疑。有没有更快的方法来做到这一点？

最佳答案

添加到 Jason 的回答中:

我们已经在 Azure Data Lake 中运行了一些测试作业，使用 U-SQL 对大约 170 万个文件进行操作，并且能够在大约 20 小时内使用 10 个 AU 完成处理。该作业生成数千个提取顶点，因此如果 AU 数量更多，它可能会在很短的时间内完成。

我们没有测试过 6m 文件，但如果您愿意尝试，请告诉我们。

无论如何，我同意 Jason 减少数量并使文件更大的建议。

关于apache-spark - 将数百万个小文件从 Azure Data Lake Storage 加载到 Databricks，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49753456/

24

4

0

文章推荐： apache-spark - Spark 调度器与 Spark 堆栈中的独立调度器

文章推荐： wordpress - 在 Woocommerce 中设置每个购物车商品的最大重量

文章推荐： emacs - 在组织模式导出上重新应用表公式

文章推荐： asp.net-core - Asp.net 核心 SSL 无法在 docker 容器中运行

ios - Firebase swift 错误 Storage.storage() 在范围内找不到 'Storage'
嗨，当尝试将图像上传到 firebase 存储时，我正在使用 firebase 文档，但是出现此错误。在范围内找不到“存储” let storage = Storage.storage() le
firebase-storage - Firebase Storage 添加 firebase-storage@system.gserviceaccount.com 问题
我最近在使用 Firebase 存储时遇到了一些问题。当我们尝试访问刚刚上传的文件时，浏览器中出现此错误消息 { "error": { "code": 400,
azure-storage - 从 Microsoft.Azure.Storage.Blob 迁移到 Azure.Storage.Blobs - 缺少目录概念
这些是在不同版本的 NuGet 包之间迁移的重要指南: https://github.com/Azure/azure-sdk-for-net/blob/Azure.Storage.Blobs_12.6
angular - 警告 : Can't resolve all parameters for Storage in PATH/node_modules/@ionic/storage/es2015/storage. d.ts : (? )
警告: Warning: Can't resolve all parameters for Storage in /Users/zzm/Desktop/minan/node_modules/@ioni
storage - 圆形立方体问题 : connection to storage server failed
我在圆形立方体中收到此错误(“连接到存储服务器失败”)行。我已经检查了所有内容，配置和数据库用户名密码，服务器详细信息都是干净的。谁能告诉我可能是什么问题。这里我给出了整个配置文件。
docker - docker，-storage-opts和aufs storage-driver
我希望能够限制容器的大小，但是使用默认的存储驱动程序aufs(对于Ubuntu 14.04)，当我尝试使用--storage-opt参数时出现错误 $ docker create -it --name
google-cloud-storage - 为 Cloud Storage 使用不同的内容编码
我希望能够支持对使用 Google Cloud Storage 托管的静态 Assets 进行 Brotli 和 Gzip 编码。为此，我想在将文件上传为之前对其进行编码, .gz和 .br .问
google-cloud-storage - Google Cloud Storage 对象完成事件多次触发
场景我有几个由 Google Cloud Storage object.finalize 事件触发的 Google Cloud Functions。为此，我使用两个存储桶并使用“同步选项:覆盖目标位
google-cloud-storage - Google Cloud Storage - 使存储桶中的对象公开可见
我在 Google Cloud Storage 中有一个存储桶和一个网站。人们目前可以通过网站上传到存储桶(使用 Google 身份验证)。但是，我需要设置它以便任何人都可以查看上传的文件(并且不能
google-cloud-storage - Google Cloud Storage 是否已在搜索中编入索引？
如果文件被放入 Google Cloud 存储并公开，但该文件的网址在另一个网页上不存在，那么 Google 是否会在其搜索结果中将其编入索引？有人知道吗？最佳答案 Google 的搜索索引独立于其
google-cloud-storage - Google Cloud Storage 无法检索存储分区或存储分区的内容
截至今天早上，我无法访问我的存储桶。当我在导航上选择 Google Cloud Storage 选项卡时，一切都按预期加载，但不是显示我的两个存储桶，而是显示一个警告栏说: We were unab
google-cloud-storage - Google Cloud Storage 上传今天修改的文件
我想弄清楚是否可以在 Windows 平台上使用 gsutil 的 cp 命令将文件上传到 Google Cloud Storage。我的本地计算机上有 6 个文件夹，每天都会向其中添加新的 pdf
google-cloud-storage - Google Cloud Storage - 切换项目
我最近开始使用 Google Cloud Storage。最初我在安装 Cloud SDK 时创建了一个虚拟项目。现在我正在做另一个项目。 gsutil 仍然指向我以前的项目。我如何使它指向我的新项目
google-cloud-storage - 获取 Google Storage 存储桶大小的最快方法？
我目前正在这样做，但它非常慢，因为我的存储桶中有几 TB 的数据: gsutil du -sh gs://my-bucket-1/ 对于子文件夹也是如此: gsutil du -sh gs://my-
Azure - 'Blobs storage' 中的文件夹和 'File storage' 中的文件夹
这可能看起来很天真，我知道我们可以在 blob 中创建文件夹，并且这些文件夹仍然存储在容器中。我们仍然可以对这些“blob 中包含的文件夹”执行通常对文件存储中的文件夹执行的所有操作。我们仍然可以像
google-cloud-storage - Google Cloud Storage 中元数据值的长度有限制吗？
将文件上传到 Google Cloud Storage 时，有一个自定义数据字段元数据。 Google's example相当短: var metadata = { contentType: 'a
Azure - 'Blobs storage' 中的文件夹和 'File storage' 中的文件夹
这可能看起来很天真，我知道我们可以在 blob 中创建文件夹，并且这些文件夹仍然存储在容器中。我们仍然可以对这些“blob 中包含的文件夹”执行通常对文件存储中的文件夹执行的所有操作。我们仍然可以像
google-cloud-storage - 如何在短时间内列出 Google Storage 存储桶中的所有文件？
我有一个包含超过 2 万个文件名的 Google Storage 存储桶。有没有办法在短时间内列出存储桶中的所有文件名？最佳答案这取决于您所说的“短”是什么意思，但是: 您可以做的一件事来加快列出
google-cloud-storage - Google Cloud Storage 并为未找到的文件收费
有谁知道如果文件不存在，您是否需要为 Google Cloud Storage 中的文件请求付费？换句话说，有人访问您存储桶中不存在的文件是否计入您的请求？还是仅适用于存在的文件？最佳答案客户无需
google-cloud-storage - Google Cloud Storage 中的速率限制
在每一分钟结束时，我的代码总共会上传 20 到 40 个文件(从多台机器上并行上传大约 5 个文件，直到全部上传完毕)到 Google Cloud Storage。我经常收到 429 - Too Ma

首页

博学

6Ren·AI

商城

apache-spark - 将数百万个小文件从 Azure Data Lake Storage 加载到 Databricks