- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试通过 Dask Dataframe 保存到与 dask 调度程序/工作人员所在的同一台计算机上的 Parquet 。但是,我在这期间遇到了麻烦。
我的 Dask 设置:我的 python 脚本在本地计算机(笔记本电脑 16 GB RAM)上执行,但该脚本为在远程计算机(具有 400 GB RAM 用于并行计算的服务器)上运行的 Dask 调度程序创建 Dask 客户端。 Dask 调度程序和工作线程都位于同一服务器上,因此它们都共享相同的文件系统,可供本地使用。由于我团队的所有成员都使用此远程 Dask 调度程序,因此我们正在处理的文件也位于同一服务器上,从而为所有成员提供通过同一 Dask 集群对所有文件的公共(public)访问。
我已经尝试过:
# This saves the parquet files in a folder on my local machine.
ddf.to_parquet(
'/scratch/dataset_no_dalayed', compression='brotli').compute()
# This delayed call of `ddf.to_parquet` saves the Dask Dataframe chucks
# into individual parquet files (i.e. parts) in the given folder.
# However, I want to persist the Dask dataframe in my workflow, but this
# fails as seen below.
dask.delayed(ddf.to_parquet)(
'/scratch/dataset_dalayed', compression='brotli').compute()
# If the Dask dataframe is persisted, the `to_parquet` fails with
# a "KilledWorker" error!
ddf = client.persist(ddf)
dask.delayed(ddf.to_parquet)(
'/scratch/dataset_persist/', compression='brotli').compute()
# In the example below, I can NOT save the Dask dataframe.
# Because the delayed function makes the Dask dataframe
# to a Pandas dataframe on runtime. And this fails as the path is a
# folder and not at file as Pandas requires!
@dask.delayed
def save(new_ddf):
new_ddf.to_parquet('/scratch/dataset_function/', compression='brotli')
save(ddf).compute()
如何正确执行此操作?
最佳答案
通常要将 dask 数据框保存为 parquet 数据集,人们会执行以下操作:
df.to_parquet(...)
从您的问题来看,您的工作人员可能并非都有权访问 NFS 或 S3 等共享文件系统。如果是这种情况,并且您存储到本地驱动器,那么您的数据将分散在各种计算机上,而没有明显的方法将它们收集在一起。原则上,我鼓励您避免这种情况,并投资共享文件系统。它们在进行分布式计算时非常有帮助。
如果你做不到这一点,那么我个人可能会并行写入本地驱动器,然后将它们传输回一台机器。
如果您的数据集足够小,那么您还可以调用 .compute
返回本地 Pandas 数据帧,然后使用 Pandas 写入
df.compute().to_parquet(...)
关于python - 如何将 dask 数据帧保存到与 dask 调度程序/工作人员相同的机器上的 Parquet ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59423474/
是否有用于手动测试的代码覆盖工具?比如我新写了30行代码,编译,然后运行,有什么办法可以快速验证这30行都运行了吗? 另外,后来,在我将代码 checkin 正式版本后,有什么方法可以验证测试部门在进
老实说,这是一个家庭作业问题,但我已经浪费了好几个小时,而且无法正确解决。它返回错误数量的结果或错误的数据: 我需要选择参与指导电影和/或在电影中表演的每个人以及他们所做的次数,如果至少 5 次。 有
我正在尝试测试 MacOS 的应用内购买。输入测试用户凭据后,App Store 提示:“当前收据无效或 ds 人员 ID 不匹配。”并且购买失败。 最佳答案 我尝试了很多方法来解决这个问题。 Get
我正在为 Jenkins 使用 ActiveDirectory 插件,因此用户必须使用他们的凭据登录到 Jenkins。然后用户在 Jenkins 中被称为 joe.doe,这很完美。 当同一个人 c
如何从 Infopath 人员/组选取器检索电子邮件地址?当我将人员/组选取器添加到 infopath 表单时,我只得到 3 个字段 DisplayName、AccountId、AccountType
在 Snow Leopard 中,可以在 iCal 事件中显示空闲/忙碌时间。我搜索了 CalStore.framework 的 header ,但找不到任何描述该字段的属性。如何检索日历事件的忙/闲
是否有人成功地从专门针对 SharePoint 2013 的新建或编辑表单中获取用户(个人或组)字段的值? 我已经尝试了通过搜索互联网找到的所有解决方案以及我自己能想到的所有解决方案,所有结果都为空白
所以我需要将一个 Twitter 帐户添加到 ABRecordRef 中。然而,最快的方法似乎是获取社交资料属性的多值引用,创建它的可变版本,查找它是否有 Twitter 条目,如果已经有,则创建
我正在尝试将使用 Tomcat(最初是 5.5,但可以与 7 一起使用)在 MyEclipse 中开发的应用程序部署到我们的演示服务器 (Sun Java Web Server 7)。不幸的是,所有设
我是一名优秀的程序员,十分优秀!