python - 如何使用许多小文件加速 Spark Parquet Reader-6ren

python - 如何使用许多小文件加速 Spark Parquet Reader

转载作者：太空宇宙更新时间：2023-11-03 14:22:54

31

4

我正在读取以 parquet 格式存储在本地集群 HDFS 上的 Spark 数据帧。 Parquet 数据分为大约 96,000 个单独的文件。现在我知道理想情况下数据不会被分割成这么多小文件，但现在我必须以这种格式处理它。我正在使用 pyspark v2.2.0。

当我运行 spark.read.parquet(data_root) 时，发生了一些奇怪的事情:spark 依次生成一系列作业，每个作业大约有 2000 个任务。它产生了 48 个这样的作业，每个作业都有一个阶段。在这 48 个作业中，它执行了大约 96,000 个任务 - 我假设它为每个 parquet 文件运行一个任务。每个作业只需要大约 2 秒即可运行。

我觉得奇怪的是，在一项包含 96,000 个任务的作业中不会发生这种情况，因为那样会更快(没有阶段边界)。 2000这个数字是从哪里来的？是否有一个我可以调整的参数来强制更多的这些小任务进入同一个作业，从而加快速度？

最佳答案

这是Spark2.0的新特性。 FileSourceStrategy将较小的 Parquet 文件组合成一个较大的文件，以便它可以以优化的方式工作。理想情况下，每个 Spark 执行器都希望在等于 HDFS block 大小 (128MB) 的 block 大小上工作。

关于python - 如何使用许多小文件加速 Spark Parquet Reader，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47829089/

31

4

0

文章推荐： ssl - 需要 IE/IIS 故障排除帮助

文章推荐： python - Pygame: Rect() 参数到底是什么？它们代表什么？

文章推荐： ssl - HTTPS 欺骗以支持遗留应用程序

c++ - Reader 在 Reader writer lock 中完成写入后，Reader 不会醒来
class ReadLock { private: std::mutex readWriteMutex; std::mutex conditionmtx; std::condi
java - PropertyResourceBundle(Reader reader)在Java6中的使用示例
我在 utf-8 编码文件中有多个 messages.properties 文件(messages_en_US.properties、messages_fr.properties，...)。在这些属性
google-reader - Google Reader API 获取单个项目
我正在尝试从 google reader api 中检索单个选定项目。是否可以通过 API 调用通过 ID 获取项目，或者我是否必须访问该项目提要并从那里获取它？最佳答案您可以使用 POST 到
google-reader - Google Reader API token 会过期吗？
好的，所以我有一个应用程序可以与 GR 的“api”紧密结合。一切正常，但最近我收到来自 Google 的许可被拒绝返回。如果我退出 GR 并使用我的应用程序重新登录，一切都会重新开始。这让我相信
Java - 一个 Reader 类，能够交错来自多个 Reader 的行
我想要的是最终得到类似的东西: public class InterleavedBufferedReader extends BufferedReader { ... } 并将其用作: Reader[
haskell - Reader monad - reader vs asks 功能区别？
reader monad 有一个asks 函数，它的定义与reader 函数完全相同，为什么它作为一个单独的函数存在，与的定义相同读者？为什么不总是使用阅读器？ class Monad m => M
Python csv reader.next() 与 next(reader)
当使用csv模块读取文件时，有两种方法可以遍历csv.reader返回的生成器。 with open('foo.csv') as f: reader = csv.reader(f) r
go - 如何将 io.Reader 拆分为多个行数相等的 io.Reader？
我想在 Go 中按照 here 中的要求做同样的事情. 我正在解析一个巨大的日志文件，我需要逐行解析它。在每一行上，我将该行反序列化为一个结构。数据可能来自任何数据源(文件、网络等)。因此，我在我的函
go - “r.(flate.Reader)”在golang的zlib/reader.go文件中是什么意思？
我在golang的zlib/reader.go文件中找到了很多像r.(flate.Reader)这样的代码片段。这是什么意思？ https://golang.org/src/compress/zlib
java - 如何合并 java.io.Reader 的内容或包装 Reader 的内容？
我正在 Spring MVC 中包装 Freemarker 模板加载器，如所述 here在 html 页面中进行默认转义。所以，我需要用我的字符串包装来自 java.io.Reader 的内容，而不
PDF 在 Foxit Reader 而不是 Adobe Reader 中显示签名
为什么这个 PDF 在 Foxit Reader 而不是 Adobe Reader 中显示签名？这是来自 Syncfusion PDF library 的代码用于生成它(另请参阅有关 signi
c++ - Reader/Writer : multiple heavy readers, 每天只写 1 次
我有一个巨大的tbb::concurrent_unordered_map被多个(~60)线程同时“大量读取”。我每天需要清除一次(完全清除或选择性清除)。在 tbb 中删除显然不是线程安全的实现，因
hibernate - 不推荐使用的 Hibernate.createClob(Reader reader, int length) 的替代方法是什么
好像是 Hibernate.createClob(Reader reader, int length)在 3.6.x 版本中已弃用它建议使用使用 LobHelper.createClob(Reade
scala - 如何将 Seq[Reader[E, A]]) 转换为 Reader[E, Seq[A]]
这是我的实际解决方案 private def transpose[E, A](readers : Seq[Reader[E, A]]) : Reader[E, Seq[A]] = Read
c# - (string)reader[0] 和 reader[0].ToString() 之间的区别
DataReader[0].ToString() 和 (string)DataReader[0] 有区别吗？我的猜测是，如果数据库类型不是字符串类型，(string)DataReader[0] 可能
c# - 从 Adobe Acrobat Reader 和 DejaVu Reader 进程中提取当前页面？
我想制作一个 C# 程序来保存 pdf 和 djvu 文件的书签。如何从 AcroRd32/DjVuReader 进程中找出当前页码？最佳答案您可以通过 Adobe Acrobat 支持的 D
c# - (string)reader[0] vs Convert.ToString(reader[0])
什么更好 var s = (string)reader[0] 或 var s = Convert.ToString(reader[0]) ? 最佳答案我会说 reader.GetString(0
google-reader - Google Reader API - 您如何通过文章 url 与项目 id 相对？
我对非官方阅读器 api 进行了大量研究，并筛选了其他问题，但没有一个完全满足我的要求。如果您知道文章 id 有据可查，如何分享文章，但如果您不知道 id，我想知道如何分享文章(即如何转换 url -
java - JDBC/WebRowSet : readXml(Reader reader) vs. readXml(InputStream iStream)
这是一个简单的示例，用于将 xml 文件读入 WebRowSet 对象，然后将数据从该对象加载到数据库。 import javax.sql.rowset.RowSetProvider; import
scala - 是否有将 Future[Reader[A, X]] 转换为 Reader[A, Future[X]] 的通用方法？
这样的转换对于任何仿函数都是可能的，不仅是Future: implicit class RichFunctorReader[F[_]: Functor, A, B](fr: F[Reader[A, B

首页

博学

6Ren·AI

商城

python - 如何使用许多小文件加速 Spark Parquet Reader