gpt4 book ai didi

python - PyArrow 表 : Filter rows

转载 作者:行者123 更新时间:2023-12-05 00:56:20 25 4
gpt4 key购买 nike

我有一个来自 Plasma DataStore 的 RecordBatch,我可以将其读入 pyarrow.RecordBatchpyarrow.Table。我现在正在尝试在将行转换为 pandas (to_pandas) 之前过滤掉行。

有没有办法在 pyarrow.Table 上使用新 Dataset API(您可以在 ParquetDataset 上使用)中的 filter 方法?这将允许我给我们一个这样的过滤器:

[[('date', '=', '2020-01-01')]]

查看源代码 pyarrow.Tablepyarrow.RecordBatch 似乎都有过滤功能,但至少 RecordBatch 需要一个 bool 值面具。

这可能吗?原因是数据集包含许多不是零拷贝的字符串(和/或类别),因此运行 to_pandas 实际上会引入显着的延迟,而我只寻找大约 20%数据集。

问候,
尼克拉斯

最佳答案

这现在是可能的:

import pyarrow as pa

my_table = pa.Table.from_arrays(
[pa.array(['foo', 'bar', 'foo'], pa.string())],
names=['col1']
)

filtered_table = my_table.filter(pa.compute.equal(my_table['col1'], 'foo'))

关于python - PyArrow 表 : Filter rows,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62430288/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com