io - 使用 pyarrow.parquet 编写数据集时，是否可以覆盖文件名的 uuid 自动分配？-6ren

io - 使用 pyarrow.parquet 编写数据集时，是否可以覆盖文件名的 uuid 自动分配？

转载作者：行者123 更新时间：2023-12-05 02:14:57

25

4

假设我有一个 pandas DataFrame df，我想使用 pyarrow parquet 将其作为数据集存储在磁盘上，我会这样做:
表 = pyarrow.Table.from_pandas(df) pyarrow.parquet.write_to_dataset(表，root_path=some_path，partition_cols=['a'，])在磁盘上，数据集看起来像这样:
一些路径
├── a=1
____├── 4498704937d84fe5abebb3f06515ab2d.parquet
├── a=2
____├── 8bcfaed8986c4bdba587aaaee532370c.parquet

问:在dataset 写入过程中，我是否可以通过某种方式覆盖自动分配的长UUID 作为文件名？我的目的是当我有新版本的 df 时能够覆盖磁盘上的数据集。目前，如果我尝试再次编写数据集，另一个新的唯一命名的 [UUID].parquet 文件将被放置在旧文件旁边，具有相同的冗余数据。

最佳答案

对于任何对这个问题的发展感兴趣的人，它在 pyarrow 版本 0.15.0 中得到解决，非常感谢开源社区(Jira 问题 link )。

按照问题中使用的示例:

pyarrow.parquet.write_to_dataset(table, 
                                 some_path, 
                                 ['a',],
                                 partition_filename_cb=lambda x:'-'.join(x)+'.parquet')

会生成这样一个保存的数据集:

├── a=1
    ├── 1.parquet
├── a=2
    ├── 2.parquet

关于io - 使用 pyarrow.parquet 编写数据集时，是否可以覆盖文件名的 uuid 自动分配？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52844511/

25

4

0

文章推荐： javascript - 如何使用 lodash 比较两个数组(顺序很重要)

文章推荐： python-import - Python 中的合格导入

C++ 覆盖...覆盖？
我知道 C++ 中的 overriding 是什么。但是，是否存在覆盖？如果有，是什么意思？谢谢。最佳答案在 C++ 术语中，您有覆盖(与类层次结构中的虚拟方法相关)和重载(与具有相同名称但
覆盖/覆盖/堆叠元素上的 Javascript 鼠标事件
我想捕获位于另一个元素下的元素的鼠标事件。这是我所拥有的示例:http://jsfiddle.net/KVLkp/13/ 现在我想要的是当鼠标悬停在红色方 block 上时蓝色方 block 有黄色
python - Pandas boxplot 覆盖/覆盖 matplotlib 图
以下报道 here我尝试创建一个带有重叠散点图的箱线图。但是当我运行时: In [27]: table1.t_in[table1.duration==6] Out[27]: counter 7
javascript - 在 JavaScript 事件中替换/覆盖/覆盖 e.target
有一个 JS Fiddle here , 你能在不克隆到新对象的情况下替换 e.target 吗？下面重复了那个 fiddle 的听众； one.addEventListener('click',
JavaDoc 覆盖
首先要解决重复的可能性: 我不是询问 Override 是什么、它的含义或 @Override 在 java 文档注释之外。那是我不是问 /**Some JavaDoc Comment*/ @over
Java特殊数组补顶/覆盖
我想要高于定义的数组。它存储点及其坐标。 public static List simpleGraph(List nodes) { int numEdges = nodes.size() *
CSS 覆盖
我在 http://olisan.dk/blog/ 有一个博客- 如您所见，有一个 28 像素的高间隙(边距顶部)...在 style.css 中: margin-top: 0; 也被设置为 marg
c++ - 覆盖 VK_USE_64_BIT_PTR_DEFINES
Vulkan 句柄是指向 struct 的不透明指针，或者只是无符号的 64 位整数，具体取决于 VK_USE_64_BIT_PTR_DEFINES 的值: #if (VK_USE_64_BI
wpf - 覆盖 DataGridTextColumn
我正在尝试提供一个行为类似于 DataGridTextColumn 的 DataGrid 列，但在编辑模式下有一个附加按钮。我查看了 DataGridTemplateColumn，但似乎更容易将 Da
Django 覆盖 ASCIIUsernameValidator
使用 Django 1.10 我想在用户名中允许\字符，因为我在使用“django.contrib.auth.middleware.RemoteUserMiddleware”的 Windows 环境中
找不到用于在视频中添加水印的 FFMPEG 覆盖
我正在尝试使用 ffmpeg 将 Logo 放入 rtmp 流中。我的 ffmpeg 版本是 ffmpeg version 4.3.1目前在我的复杂过滤器中，我有: ffmpeg -re -i 'v
Firebase 3存储不允许文件更新/覆盖
是否有用于Firebase 3存储的方法/规则来禁用文件更新或覆盖？我为数据库找到了data.exists()，但没有为存储找到解决方案。最佳答案 TL; DR:在Storage Security
Docker Compose 覆盖
我有两个 Docker Compose 文件，docker-compose.yml看起来像这样 version: '2' services: mongo: image: mongo:3.2
java - 覆盖@CollectionTable
我需要覆盖 JPA 中的集合表吗？也许有人有想法 public class nationality{ @Embedded @AttributeOverrides({
WIX 安装文件，覆盖
嗨，我正在使用 WIX 和下面的代码将文件安装到目录中。我的应用程序的工作方式是用户可以在该目录中复制他们自己的文件，覆盖他们喜欢的内容
Lua 覆盖 # 字符串
我正在尝试为 Lua 中的字符串实现我自己的长度方法。我已成功覆盖字符串的 len() 方法，但我不知道如何为 # 运算符执行此操作。 orig_len = string.len function
scala - 覆盖 'val'时出现意外结果
在Scala 2.10.4中，给出以下类: scala> class Foo { | val x = true | val f = if (x) 100 else 200
Magento 覆盖 Controller
我想做上面的事情。我过去覆盖了许多文件...... block ，模型，助手......但这个让我望而却步。谁能看到我在这里做错了什么: (我编辑了这段代码......现在包括一些建议......
java - 参数顺序 - 覆盖
根据javadoc An instance method in a subclass with the same signature (name, plus the number and the ty
Java FileWriter 覆盖
我有一段代码，只要有可用的新数据作为 InputStream 就会生成新数据。每次都覆盖同一个文件。有时文件在写入之前变为 0 kb。 Web 服务会定期读取这些文件。我需要避免文件为 0 字节的情况

首页

博学

6Ren·AI

商城

io - 使用 pyarrow.parquet 编写数据集时，是否可以覆盖文件名的 uuid 自动分配？