gpt4 book ai didi

pandas - 如何在 Apache Beam 中使用 Pandas?

转载 作者:行者123 更新时间:2023-12-01 23:03:27 25 4
gpt4 key购买 nike

如何在 Apache Beam 中实现 Pandas?
我无法对多个列执行左连接,并且 Pcollections 不支持 sql 查询。甚至 Apache Beam 文档也没有正确装帧。我检查过,但在 Apache Beam 中找不到任何类型的 Panda 实现。
谁能引导我到所需的链接?

最佳答案

这里发生了一些困惑。
pandas是“支持”的,从某种意义上说,您可以使用 pandas库的方式与您在没有 Apache Beam 的情况下使用它的方式相同,并且您可以使用 Beam 管道中的任何其他库的方式相同,只要您指定了正确的依赖项。它也是“支持”的,因为它默认捆绑为依赖项,因此您不必自己指定它。例如,您可以写一个 DoFn使用 pandas 执行一些计算对于每个元素; Beam 对所有元素并行执行每个元素的单独计算。

从 Apache Beam 当前没有提供与其特殊集成的意义上说,它不受支持,例如你不能使用 PCollection作为 Pandas 数据框,反之亦然。一个 PCollection物理上不包含任何数据(这对于流管道来说应该特别清楚)——它只是 Beam 执行计划中的一个占位符节点。

也就是说,pandas - 类似于 Beam 的 API PCollections肯定是个好主意,并且会简化许多现有的学习 Beam pandas用户,但我认为目前没有人致力于实现这一点。然而,Beam 社区目前正在讨论将模式添加到 PCollections 的想法,这是朝着这个方向迈出的一步。

关于pandas - 如何在 Apache Beam 中使用 Pandas?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48806775/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com