gpt4 book ai didi

python - 在 Google Cloud Dataflow 上安装 pandas 0.20.3 需要很长时间

转载 作者:太空宇宙 更新时间:2023-11-04 02:43:56 24 4
gpt4 key购买 nike

在 Google Cloud Dataflow 上使用 Apache Beam Python SDK 2.0.0 时,安装 Pandas 0.20.3 需要很长时间(大约 8 分钟)。安装主要卡在消息上 Running setup.py bdist_wheel for pandas: still running...。然而,在我的机器上,安装相同版本的 pandas 甚至不需要 30 秒(即使在清除 pip 缓存之后)。现在安装 pandas 大约需要运行我的管道成本的三分之一。关于为什么这需要这么多时间的任何想法?

最佳答案

Dataflow SDK 以仅源形式暂存依赖关系,因为客户端架构不一定与用作 Dataflow 工作器的 VM 匹配。这将导致 pandas 从源代码安装并在 VM 上编译需要很长时间。

可以通过使用 --extra_package 标志并指向 whl 文件来解决这个问题。对于 pandas,您可以使用 pandas 的 pypi 页面中的相应 whl 文件(py27、x86_64) .

关于python - 在 Google Cloud Dataflow 上安装 pandas 0.20.3 需要很长时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45685129/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com