parquet - 在 DuckDB 中读取分区的 Parquet 文件-6ren

parquet - 在 DuckDB 中读取分区的 Parquet 文件

转载作者：行者123 更新时间：2023-12-05 02:30:08

31

4

背景:

DuckDB 允许直接查询 parquet 文件。例如con.execute("从'Hierarchy.parquet'中选择 *)
Parquet 允许按列值对文件进行分区。当一个 Parquet 文件被分区时，一个顶级文件夹被创建，其中包含 Parquet 文件的名称和列值的子文件夹，然后这些子文件夹包含实际的 Parquet 数据文件。例如Hierarchy.parquet(文件夹)--> date=20220401(子文件夹)--> part1.parquet

预期行为

DuckDB 查询分区和未分区的 parquet 文件。

观察到的行为

DuckDB 在查询分区的 parquet 文件时失败并处理未分区的 parquet 文件。

con.execute("Select * from 'Hierarchy.parquet'") 失败运行时错误:IO 错误:当 Hierarchy.parquet 被分区时，找不到与模式“Hierarchy.parquet”匹配的文件。

查询底层个人数据文件工作正常:con.execute("Select * from 'Hierarchy.parquet/date=20220401/part1.parquet'")

有没有办法用 DuckDB 查询分区的 parquet 文件？或者这是一个限制/错误？

最佳答案

这在

中作为 DuckDB 问题/功能请求进行讨论

“支持 parquet 文件的 hive 式分区” https://github.com/duckdb/duckdb/issues/2186 .

建议的解决方法是:

将 parquet 文件作为带有分区参数的箭头/pyarrow 数据集打开
将数据集注册为 DuckDB 中的 View
查询 View

import pyarrow.dataset as ds
import duckdb

con = duckdb.connect()

dataset = ds.dataset('Hierarchy.parquet", format="parquet", partitioning="hive")
con.register_arrow("Hierarchy", dataset)
con.execute("Select * from Hierarchy").df()

DuckDB 的直接支持会更好......但这工作正常并且很容易。

关于parquet - 在 DuckDB 中读取分区的 Parquet 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/71952623/

31

4

0

文章推荐： continuous-integration - 无人机 IO 何时和触发之间的区别？

文章推荐： python - 在 Python 中显示图像大小的正确方法是什么？

文章推荐： Kotlin:引用构造函数未传递的委托(delegate)

区 block 链实现
关闭。这个问题需要更多 focused .它目前不接受答案。想改进这个问题？更新问题，使其仅关注一个问题 editing this post . 4年前关闭。 Improve this questi
PHP登录成员(member)区
我已经完成了注册页面，并且运行顺利。现在我需要弄清楚登录部分。我想要它，所以一旦用户登录，它就会将他们带到私有(private)页面，只有登录的用户才能看到。它不需要针对每个用户进行个性化设置，只
区 block 链 - 实现如何进行点对点发现？
出于个人好奇心，我目前正在学习区 block 链的工作原理。我正在学习这门类(class)，现在我已经使用网络套接字设置了点对点连接。区 block 链应用程序的多个实例现在可以使用这些套接字运行并相
sql - 区 block 链可以存储在SQL甚至noSQL数据库中吗？
我读过: The blockchain database isn’t stored in any single location, meaning the records it keeps are t
blockchain - 区 block 链是分布式数据库吗？
Closed. This question needs to be more focused。它当前不接受答案。想要改善这个问题吗？更新问题，使它仅关注editing this post的一个问题。
transactions - 区 block 链交易
如果我在区块链中进行交易，是否只有在将交易添加到区块链后才会进行比特币转账？如果是这样，挖掘区块可能需要时间，并且无法进行紧急付款。那么这不是区块链的劣势吗？最佳答案如果您不重视能够在没有第三方(
blockchain - 区 block 链如何安全？
Closed. This question needs to be more focused。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过editing this post专注于一个问题
blockchain - 区 block 链中的权限？
根据我的理解，我读到的关于区 block 链的所有内容都表明，即使在私有(private)区 block 链上，每个参与者都可以查看所有交易。我看到它提到区 block 链的一个用例可能是共享医疗数据
c# - 区 block IP地址
服务器正在发送消息时，如何阻止连接到服务器的一个IP地址。我的发送消息选项程序如下所示。 private void buttonSendMsg_Click(对象发送者，EventArgs e) {
hadoop - 区 block 大小效果Hadoop
iam正在hadoop apache 2.7.1上工作和iam添加大小不超过100 Kb的文件所以如果我将块大小配置为1 mb或默认值是 128兆字节不会影响我的文件，因为它们只会保存在一个块中
docker - 区 block 链REST端点不可访问
我有一个docker-compose文件here。我可以连接到7051并注册我的chaincode客户端，但是当我尝试连接到localhost:7050时，我得到一个错误，该错误在使用curl测试时如
list - 区 block 链是单链表吗？
从数据类型来看，区 block 链是单链表吗？因为每个 block 都使用哈希引用前一个 block 。或者它是某种树？最佳答案区 block 链表示为单链表的方式。每个 block 都有前一个
java - 区 block 链表示
我无法理解给定代码片段的 hashcode() 部分。我尝试过搜索它，但我无法弄清楚。 this.hash = Arrays.hashCode(new Integer[]{data.has
bitcoin - 区 block 链是去中心化数据库吗？
已关闭。这个问题是 not about programming or software development 。目前不接受答案。这个问题似乎不是关于 a specific programming
java - 区 block 链技术如何验证工作证明
我正在通过一些在线示例学习区 block 链。我有这个高级代码，我用以前的哈希创建一个新 block ，然后向它添加一个事务，然后生成 block 的困难哈希(有 8 个前导零) Block blo
php - 区 block 链api支付模块
我们有一个包含一些数字商品的网站。从那里购买的用户需要用 BTC 购买一些信用。在他购买信用卡后，脚本必须将他用 BTC 购买的货币 (USD) 数量加载到他的账户中。所以这里我们有 HTML 表单
ios - 区 block 完成状态验证
我目前正在使用 enumerateObjectsUsingBlock block 在 subview 下进行枚举，我怎样才能确定 block 的完成？下面是区 block 内容 [self.view
css - 锂中的 active 区
我通常将显示 block 放在链接上，以使按钮的所有 div 都处于事件状态，而不仅仅是文本。但在这种情况下，我需要在 ul li 中使用 display:inline-block 我认为这会禁用其他
python - 区 block 链信息钱包支票付款
我正在尝试创建付款账单并通过电报机器人发送给我的客户:我正在使用区 block 链 API V2-https://blockchain.info/api/api 接收。我的代码是: xpub='***
algorithm - 区 block 链和不可变链表有什么区别？
有个面试题:区 block 链和不可变链表有什么区别？我回答他们是相同的技术，然后没有通过测试。请纠正我的错误。最佳答案链表中的每一项通常通过指针或内存地址指向链表中的下一项。区 block

首页

博学

6Ren·AI

商城

parquet - 在 DuckDB 中读取分区的 Parquet 文件