apache-spark - 非分区 Parquet 数据的谓词下推-6ren

apache-spark - 非分区 Parquet 数据的谓词下推

转载作者：行者123 更新时间：2023-12-03 23:01:37

27

4

我在 S3 中有一个包含 Parquet 数据的文件夹:
存储桶名称/文件夹名称/年/月/日

eg:
s3://bucket_name/folder_name/2020/12/10

我正在使用 Apache spark在 AWS EMR读取 Parquet 文件。
由于数据没有分区，有没有办法实现 谓词下推过滤而不分区数据？
可以使用哪些性能改进最佳实践。

最佳答案

我将在代码中描述我的解决方案:

import pyspark.sql.functions as f
from pyspark.shell import spark

# Read absolute path and put "/*/*/*" to read all partitions
df = spark.read.parquet("s3://bucket_name/folder_name/*/*/*")

# Get absolute file path
df = df.withColumn('path', f.split(f.input_file_name(), '/'))

# Slice path and recover year / month / day in an array
df = df.withColumn('year_month_day', f.slice(f.col('path'), -4, 3))

# Transform array values to respective columns
df = df.withColumn('year', f.col('year_month_day').getItem(0))
df = df.withColumn('month', f.col('year_month_day').getItem(1))
df = df.withColumn('day', f.col('year_month_day').getItem(2))

# Drop temporary columns
df = df.drop('path', 'year_month_day')

df.show()

# TODO : Make your transformations
# .
# .
# .
# Save partitioned by year, month and day (if you want)
# df.write.partitionBy('year', 'month', 'day').parquet('...')

我的目录:

输出:

+--------+--------+----+-----+---+
|column_a|column_b|year|month|day|
+--------+--------+----+-----+---+
| hello_1| hello_2|2019|   06| 10|
| world_1| world_2|2020|   12| 31|
+--------+--------+----+-----+---+

关于apache-spark - 非分区 Parquet 数据的谓词下推，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65386616/

27

4

0

文章推荐： python - 类型错误 : Could not build a TypeSpec with type KerasTensor

文章推荐： c++ - 如何在 C++ 中注册动态成员

文章推荐： r - 如何将标题文本与条形图中的左条对齐？

java - 尽管有默认的 "OR"谓词，但 ViewerFilter 上的 "And"谓词？
我正在开发一个包含 TreeViewer 的 RCP 应用程序，我想在其上激活多个应与“OR”谓词配合使用的过滤器，例如: A |--B |--|--redColor |--|--blueColor
c++ - 我的类型在 std 函数中未能通过 enable_if 谓词。有没有办法 "debug"谓词？
我的问题是关于 enable_if通常标准库中的谓词，但我将在迭代器类型的上下文中构建它，因为这是我目前遇到此问题的地方。我有一个自定义迭代器类型 It , 这样 std::iterator_tra
Scala 谓词
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi
Prolog 谓词 - 无限循环
我需要使用自然数为 2 的幂创建一个 Prolog 谓词。自然数是:0、s(0)、s(s(0)) 等等。例如: ?- pow2(s(0),P). P = s(s(0)); false. ?- po
iphone - 核心数据 ANY BETWEEN 谓词
我正在尝试创建一个 NSPredicate 来查找在特定日期范围内包含“ session ”的“项目”。我一开始尝试过这个: [NSPredicate predicateWithFormat:@"AN
Prolog powerset 谓词
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
java - 如何在JOOQ中编写多字段 `in`谓词？
在JOOQ中，我可以编写如下SQL这样的代码吗？我不知道如何编写具有多个字段的in谓词。 select some_value from t1 where (t1.id1, t1.id2) i
具有可变数量参数的 Prolog 谓词
我正在用 PROLOG 编写一个数独求解器。我希望求解器能够处理所有可能大小的数独，因此我自然需要构造采用可变数量参数的谓词。 (例如在数独中构建“ block ”。) 如何构造或模拟具有可变数量参数
java - 如何在Ebean中实现 "not in"谓词？
我有一个包含一些 id 的列表，我希望我的 ebean 查询排除这些 id。所以基本上我需要在 ebean 中使用“not in”谓词，就像 sql 一样，但遗憾的是找不到。还有其他方法可以实现这一目
c# - 如何创建一个通用方法来遍历对象的字段并将其用作 Where 谓词？
我正在构建一个通用接口(interface)以从类中公开选定的字符串属性，然后我想在每个字段中搜索文本，以检查它是否匹配。这是我的 IFieldExposer接口(interface): using
java - 搜索嵌套对象的规范/谓词
我将 Spring Boot 与 Spring JPA 和 Specification Executor 结合使用。我的规范/谓词组合成功地在我的类中搜索了简单的属性。但是，我在搜索其中的对象时遇到了
MySQL 并跳过 WHERE 谓词
如果下面的 last_name 为 NULL，它会跳过该列的 WHERE 比较以提高性能吗？ AND (last_name IS NULL OR sp.last_name LIKE CONCAT('%
c++ - 谓词...或其他术语？
出于好奇:如果我有一个接受多个参数(通常为 1 或 2)并返回 3 个值中的 1 个(而不是 bool 值 true 或 false)的类运算符(或函数等)，它是否仍应被调用谓词？还是模糊逻辑的特例？
返回装箱值类型是否为该类型的默认值的 C# 谓词
是否可以创建一个采用装箱值类型并返回该值类型是否等于该类型默认值的方法？所以我想创建一个具有以下签名的方法: bool IsDefault(object boxedValueType); 注意:当
swift - RealmSwift ALL 谓词
let selectedConsoles = ["Xbox", "Playstation 4"] let players = realm.objects(Person).filter("console
swift - NSSet 谓词
我正在尝试根据用户搜索文本过滤来自核心数据的结果，但效果很好。我正在努力做到有几个关键术语可以返回特定结果。我有一个Colour 实体，它与另一个实体ProjectColour 具有对多关系。 P
C++ is_str_empty 谓词
std::vector lines; typedef std::vector::iterator iterator_t; iterator_t eventLine = std::find_if(lin
c# - IndexOf 谓词？
我想在一个列表中找到一个元素的索引，该列表匹配某个谓词，有没有比以下更好的方法: var index = list.IndexOf(list.Find(predicate)); ? 最佳答案你在找
prolog - 高阶 "solutions"谓词
我正在使用缺少 findall 的高阶 Prolog 变体. 还有一个关于实现我们自己的问题 findall这里:Getting list of solutions in Prolog . 低效的实现
breeze - 如何测试空的 Breeze 谓词？
我正在使用 Breeze 过滤客户端请求的数据。我的代码看起来有点像这样: 客户端 - 创建过滤谓词 var predicates = []; var criteriaPredicate = null

首页

博学

6Ren·AI

商城

apache-spark - 非分区 Parquet 数据的谓词下推