apache-spark - Spark Parquet 分区 : How to choose a key-6ren

apache-spark - Spark Parquet 分区 : How to choose a key

转载作者：行者123 更新时间：2023-12-04 14:23:02

28

4

我发现默认情况下，Spark 似乎写了很多小的 parquet 文件。我认为如果我使用分区来减少这种情况可能会更好？

但是如何选择分区键呢？例如，对于我经常按 ID 查询的用户数据集，我是否按 id 进行分区？ ?但我在想，在这种情况下，它会为 1 个用户创建 1 个 Parquet 文件吗？

如果我经常按 2 个键查询，但只查询 1 个或另一个而不是同时查询，那么按两个键进行分区有用吗？例如，假设我通常通过 id 查询和 country , 我用 partitionBy('id', 'country') ?

如果没有查询数据的特定模式但想限制文件数量，我是否使用 repartition然后？

最佳答案

分区为分区字段的每个值创建一个子目录，因此如果您按该字段进行过滤，它不会读取每个文件，而是仅读取适当子目录中的文件。

数据太大时应该分区和你通常
一次处理数据的一个子集。

您应该按双方都需要过滤的字段进行分区
经常和具有低基数，即:它将创建一个
相对较少的目录数量相对较多
每个目录的数据。

例如，您不想按唯一 ID 进行分区。它会创建很多目录，每个目录只有一行；当您需要选择多个 id 时，这是非常低效的。

如果您正在处理时间序列(例如每日转储数据)、地理(国家、分支机构等)或分类法(对象类型、制造商等)，一些典型的分区字段可能是日期。

关于apache-spark - Spark Parquet 分区 : How to choose a key，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49705277/

28

4

0

文章推荐： redux - 在 Vuex 中不使用操作就提交突变是不是很糟糕？

文章推荐： sql - Oracle 查询 : Making conditional fetch in single query

文章推荐： Django:原子事务中的对象创建

primary-key - MySQL keys : PRIMARY KEY, FOREIGN KEY, KEY -- "KEY"是什么？
查看“mysqldump -d”并看到一个键是 KEY，而不是“PRIMARY KEY”或“FOREIGN KEY” 什么是关键？示例: CREATE TABLE IF NOT EXISTS `TA
python - 从字典中获取键 : keys() vs 'keys for keys in dict.keys()'
在我开始使用 Python 的过程中尝试找出最佳编码实践。我用 Pandas 写了一个 csv 到数据框阅读器。它使用格式: dataframe = read_csv(csv_input, useco
key - 'MyhomePage({Key key, this.title}) : super(key: key);' in Flutter - what would be a clear explanation with an example?
在 Flutter 中，用一个例子可以清楚地解释什么？我的困惑是关于 key，如下面的代码所示。 MyHomepage({Key key, this.title}) : super(key: key
android - Google API 中的server-key、android-key、browser-key 和iOS key 有什么区别？
我在我的 Android 应用程序中使用 GCM。要使用 GCM 服务，我们需要创建 Google API key 。因此，我为 android、服务器和浏览器 key 创建了 API key 。似乎
azure - 如何在一个 key 中创建具有多个值的 key 保管库 key ？
我想在 azure key 保管库中创建一个 secret ，该 key 将具有多个 key (例如 JSON)。例如- { "storageAccountKey":"XXXXX", "Co
encryption - 指定的 key 不是此加密的有效 key : Key size is not valid. 得到的 key 长度为:15
尝试通过带有 encodeforURL() 的 url 发送 key 时，我不断收到错误消息和 decodefromUrl() .代码示例如下。这是我的入口页面: key = generateSec
key - 检查雪花变体中是否存在 key
是否有检查雪花变体字段中是否存在键的函数？最佳答案您可以使用 IS_NULL_VALUE 来查看 key 是否存在。如果键不存在，则结果将为 NULL。如果键存在，如果值为 JSON null，则
key - 无法从 keys.gnupg.net 添加 key
我正在尝试运行此命令: sudo apt-key adv --keyserver keys.gnupg.net --recv-keys 1C4CBDCDCD2EFD2A 但我收到一个错误: Execu
python - 我该如何放置字典 {key : value} in it's designated key in a dictionary so that it is {key: {key: value}} after counting value
我有一个 csv 文件，我正在尝试对 row[3] 进行计数，然后将其与 row[0] 连接 row[0] row[3] 'A01' 'a' 'B02'
c# - 如何在 C# 中编写一个看起来像 A(key, B(key, C(key, ValFactory(key)))) 的递归函数？
如何编写具有这种形式的函数: A(key, B(key, C(key, ValFactory(key)))) 其中 A、B 和 C 具有此签名: TResult GetOrAdd(string key
javascript - 为什么 Object.keys(this).map(key => (this as any)[key])？
审查 this method我很好奇为什么它使用 Object.keys(this).map(key => (this as any)[key])? 只调用 Object.keys(this).ind
Python: `key not in my_dict` 但 `key in my_dict.keys()`
我有一个奇怪的情况。我有一个字典，self.containing_dict。使用调试器，我看到了字典的内容，并且可以看到 self 是其中的一个键。但是看看这个: >>> self in self.c
google-apps-script - computeRsaSha256Signature() 返回无效参数 : key error when key is public key or rsa private key
我需要在我的 Google Apps 脚本中使用 RSA-SHA256 和公钥签署消息。我正在尝试使用 Utilities.computeRsaSha256Signature(value, key)
reactjs - {...{ key }} 与 key={key} 相同来分配 React 属性吗？
我是 React 的初学者开发人员，几天前我看到了一些我不理解的有趣语法。 View组件上有{...{key}}，我会写成 key={key} ，它完全一样吗？你有链接或解释吗？ render()
sql - 代理 key 、合成 key 和人工 key 之间有区别吗？
代理 key 、合成 key 和人工 key 之间有什么区别吗？我不清楚确切的区别。最佳答案代理键、合成键和人工键是同义词。技术关键是另一个。它们都表示“没有商业意义的主键”。它们不同于具有超出
c# - 使用应用程序客户端 key 访问 Azure Key Vault key
问题陈述:在 Web/控制台 C# 应用程序中以编程方式检索并使用存储在 Azure Key Vault 中的敏感值(例如数据库连接字符串)。据我所知，您可以在 AAD 中注册应用，并使用其客户端
c# - 使用应用程序客户端 key 访问 Azure Key Vault key
问题陈述:在 Web/控制台 C# 应用程序中以编程方式检索并使用存储在 Azure Key Vault 中的敏感值(例如数据库连接字符串)。据我所知，您可以在 AAD 中注册应用，并使用其客户端
Perl:如何获取 key "keys on reference is experimental"上的 key
我正在寻找 Perl 警告的解决方案 “引用键是实验性的” 我从这样的代码中得到这个: foreach my $f (keys($normal{$nuc}{$e})) {#x, y, and z 我在
java - JCE中是否有任何机制来指定 key 生成生命周期( session key 或永久 key )
我正在为 HSM 实现 JCE 提供程序 JCE中有没有机制指定 key 生成类型例如: session key 或永久 key KeyGenerator keygen = KeyGener
android - invalid key hash key 哈希与任何存储的 key 哈希不匹配
我在 Facebook 上创建了一个应用程序。我已经正确添加了 keyhash 并且应用程序运行良好但是当我今天来并尝试再次运行它时它给了我这个错误。这已经是第二次了。 Previsouly 当我收

首页

博学

6Ren·AI

商城

apache-spark - Spark Parquet 分区 : How to choose a key