gpt4 book ai didi

kubernetes - 使用 Dask 在 Kubernetes 集群上工作时建议的工作流程是什么?

转载 作者:行者123 更新时间:2023-12-02 12:17:11 31 4
gpt4 key购买 nike

我已经在 GCP 上使用 Kubernetes Engine 建立了一个 Kubernetes 集群,以使用 Dask 进行一些数据预处理和建模。我使用 Helm following these instructions 安装了 Dask .

现在,我看到有两个文件夹,workexamples
enter image description here

我能够执行 example 中的笔记本内容文件夹确认一切都按预期工作。

我现在的问题如下

  • 在集群上工作时建议遵循哪些工作流程?我应该在 work 下创建一个新笔记本吗?并开始制作我的数据预处理脚本的原型(prototype)?
  • 如何确保在升级 Helm 部署时不会删除我的工作?您是否会在每次升级时手动将它们移动到存储桶中(这似乎很乏味)?或者您会创建一个简单的 vm 实例,在那里进行原型(prototype)制作,然后在完整数据集上运行时将所有内容移动到集群中?

  • 我不熟悉在云中的分布式环境中处理数据,因此欢迎提出任何建议。

    最佳答案

    What are the suggested workflow to follow when working on a cluster?



    有许多工作流程适用于不同的组。没有单一的祝福工作流程。

    Should I just create a new notebook under work and begin prototyping my data preprocessing scripts?



    当然,那会很好。

    How can I ensure that my work doesn't get erased whenever I upgrade my Helm deployment?



    您可以将数据保存到更永久的存储中,例如云存储或托管在其他地方的 git 存储库。

    Would you just manually move them to a bucket every time you upgrade (which seems tedious)?



    是的,那会起作用(是的,确实如此)

    or would you create a simple vm instance, prototype there, then move everything to the cluster when running on the full dataset?



    是的,这也可以。

    总之

    Helm 图表包括一个 Jupyter 笔记本服务器,以方便和轻松测试,但它不能替代成熟的长期持久生产力套件。为此,您可能会考虑像 JupyterHub 之类的项目(它处理您上面列出的问题)或当今市场上众多面向企业的变体之一。与其中任何一个一起使用 Dask 会很容易。

    关于kubernetes - 使用 Dask 在 Kubernetes 集群上工作时建议的工作流程是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55032804/

    31 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com