- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的数据集有 20000 个文件,每个文件都很小。我将如何减少文件数量以及最佳数量是多少?
最佳答案
最直接的方法是在转型结束。
这需要是您返回/写出结果之前的最后一次通话。
这看起来像:
# ...
@transform_df(
# ... inputs
)
def my_compute_function(my_inputs):
# ... my transform logic ...
df = df.coalesce(500)
# df = df.repartition(500) # this also works but is slightly slower than coalesce
return df
这是用于引用的称为“分桶”的前兆步骤。
最佳存储桶数量取决于您所处理的数据规模。在成功构建后,通过观察磁盘上数据集的总大小来计算最佳桶数有点简单。
如果您的数据集大小为 128GB,您最终会希望得到 128MB 的文件,因此您的存储桶数量为:
128 GB * (1000 MB / 1 GB) * (1 file / 128MB) -> 1000 files
注意:这不是一个精确的计算,因为由于 Snappy + Parquet 写出中使用的数据压缩,更改存储桶计数后您的最终数据集大小将有所不同。您会注意到文件大小与您预期的略有不同,因此在上述示例中您最终可能需要 1100 或 900 个文件
关于palantir-foundry - 如何减少类型转换数据集中的文件数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64651490/
这个问题在这里已经有了答案: How can I have nice file names & efficient storage usage in my Foundry Magritte data
如何将本地的 h5 模型从 Foundry 导入代码工作簿?我想使用拥抱面库,如下所示,在其文档中,from_pretrained 方法需要预训练模型所在位置的 URL 路径。 理想情况下,我希望将模
假设我使用 cloudfoundry.org 上提供的开源 Cloud Foundry 实现设置了我自己的云。 .我部署的每个应用程序都会作为单独的用户运行吗?或者这里是否使用了 VMWare 的任何
我在云中发布应用程序时的默认时区是什么?如果有这样的选项,我该如何更改时区? 非常感谢对此功能的任何引用。 最佳答案 run.pivotal.io 上的时钟设置为 UTC。如果您要部署到那里,则必须使
我的应用程序需要获取其运行的实例数(在运行时,我的应用程序在我的程序逻辑中使用此信息)。(VCAP_APPLICATION 环境变量无法提供此信息。)直接调用 API 并使用“实例”属性是一种选择,但
我有 3 个应用程序在私有(private) vcap 实例中运行。一个充当面向客户的 Web 应用程序,而另一个是后端系统,一个通过 Web 应用程序使用的 REST 公开数据服务,另一个应用程序通
部署到 Cloud Foundry 的应用程序的多个实例之间是否可以进行通信?我检查了 Cloud Foundry API,但找不到任何提及此主题的内容。我已经尝试过 Hazelcast,但不幸的是,
我正在构建一个 Workshop 应用程序,大量操作人员(> 200)将使用该应用程序进行数据输入。我想实现以下设置: 工作人员将输入现有本体对象的数据。为此,我在对象 View 中嵌入了一个 Fou
有谁知道我如何告诉我的 Cloud Foundry 实例来监控我的健康端点,以便当我的健康端点说应用健康不是状态:UP 时,应用会重新启动? 最佳答案 cf CLI 6.24.0(2017 年 2 月
部署到 Cloud Foundry 的应用程序的多个实例之间是否可以进行通信?我检查了 Cloud Foundry API,但找不到任何提及此主题的内容。我已经尝试过 Hazelcast,但不幸的是,
我正在构建一个 Workshop 应用程序,大量操作人员(> 200)将使用该应用程序进行数据输入。我想实现以下设置: 工作人员将输入现有本体对象的数据。为此,我在对象 View 中嵌入了一个 Fou
当我从 Cloud Foundry blog 中阅读以下内容时,我试图弄清楚如何使用 Micro CloudFoundry 进行开发。 : “无需安装 Web 服务器(Tomcat 等)、运行时(Ja
我有一个文件夹,我会每月上传一个文件。该文件每个月的格式都相同。 第一个问题 想法是将此文件夹中的所有文件连接成一个文件。目前我正在对文件名进行硬编码(文件名[0]、文件名[1]、文件名[2]..),
我想我了解重新分区、配置单元分区和分桶如何影响输出文件的数量,但我不太清楚各种功能之间的相互作用。有人可以帮助填写以下每种情况下我留空的输出文件的数量吗?目的是了解在我混合使用高基数列和低基数列的情况
我有时听到人们提到此 AQE 功能,我想知道如何验证我的工作是否正在使用它。我在代码存储库和代码工作簿中运行转换。 最佳答案 这会在作业的环境详细信息选项卡中注明。 导航到构建页面 在 Build 页
我的 Foundry 实例中有一个使用增量计算的管道设置,但由于某种原因没有达到我的预期。即,我想读取我的转换的先前输出并获取日期的最大值,然后仅在此最大日期之后立即读取数据的输入。 出于某种原因,它
我可以用apt-get或 Cloud Foundry buildpack 中的其他包管理器或 .profile应用程序附带的脚本;如果可以,我该怎么做?我希望以与 dockerfile 中相同的方式执
我们正在寻找 Foundry 平台中是否有一个工具可以让我们拥有一个字段描述列表,并且当数据集构建时,它可以自动填充这些描述。这是否存在?如果存在,该工具叫什么? 最佳答案 如果您将您的代码存储库升级
是否可以将应用程序的文件下载到我的本地 PC,即执行与“推送”相反的操作? 最佳答案 只要您的应用程序成功完成暂存(即构建包运行并完成),您就应该能够下载由 CF 构建的 Droplet。这将包含您的
我有一个由对象支持的 Foundry Form,能够对其进行更改。我需要授予我的同事什么权限才能编辑表单?表单上的编辑器是否足够,或者他们是否还需要成为对象的编辑器? 最佳答案 要创建表单,您需要在表
我是一名优秀的程序员,十分优秀!