amazon-ec2 - 在 EC2 实例中使用 Dask 会抛出 "Couldn' t 收集 1 个 key ...”-6ren

amazon-ec2 - 在 EC2 实例中使用 Dask 会抛出 "Couldn' t 收集 1 个 key ...”

转载作者：行者123 更新时间：2023-12-02 20:21:07

30

4

我启动了几个 EC2 实例，使用 conda 安装了 dask，在各自的实例中启动了调度程序和工作线程，并且调度程序能够接收来自工作线程的连接。但是，在启动客户端并收集结果(例如x.result())后会抛出错误

WARNING - Couldn't gather 1 keys, rescheduling and the connection between scheduler and worker is terminated.

这与本期 2095 中的错误几乎相同并固定在 1278 。不幸的是，如何使用新标志解决该问题是很清楚的。

这就是我的 session 的样子:

调度程序 - 终端

>>> from dask.distributed import Client
>>> client = Client('<domain-scheduler>:8786')
>>> def inc(x):
...   return x + 1
...
>>> x = client.submit(inc, 10)
>>> x.result()
distributed.client - WARNING - Couldn't gather 1 keys, rescheduling {'inc-17ff1aa09aeed9c364fc31df7522511e': ('tcp://172.30.3.63:38971',)}
^CTraceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/home/ubuntu/anaconda2/envs/dask-env/lib/python2.7/site-packages/distributed/client.py", line 190, in result
    raiseit=False)
  File "/home/ubuntu/anaconda2/envs/dask-env/lib/python2.7/site-packages/distributed/client.py", line 652, in sync
    return sync(self.loop, func, *args, **kwargs)
  File "/home/ubuntu/anaconda2/envs/dask-env/lib/python2.7/site-packages/distributed/utils.py", line 273, in sync
    e.wait(10)
  File "/home/ubuntu/anaconda2/envs/dask-env/lib/python2.7/threading.py", line 614, in wait
    self.__cond.wait(timeout)
  File "/home/ubuntu/anaconda2/envs/dask-env/lib/python2.7/threading.py", line 359, in wait
    _sleep(delay)
KeyboardInterrupt

调度程序 - dask-scheduler

(dask-env) ubuntu@ip-172-30-3-136:~$ dask-scheduler --host <domain-scheduler>:8786 --bokeh-port 8080
distributed.scheduler - INFO - -----------------------------------------------
distributed.scheduler - INFO - Clear task state
distributed.scheduler - INFO -   Scheduler at:   tcp://172.30.3.136:8786
distributed.scheduler - INFO -       bokeh at:         172.30.3.136:8080
distributed.scheduler - INFO - Local Directory:      /tmp/scheduler-TX9nqO
distributed.scheduler - INFO - -----------------------------------------------
distributed.scheduler - INFO - Register tcp://172.30.3.63:38971
distributed.scheduler - INFO - Starting worker compute stream, tcp://172.30.3.63:38971
distributed.core - INFO - Starting established connection
distributed.scheduler - INFO - Receive client connection: Client-b5d903b5-8620-11e8-8a4c-06a866fbd474
distributed.core - INFO - Starting established connection
distributed.scheduler - INFO - Remove worker tcp://172.30.3.63:38971
distributed.core - INFO - Removing comms to tcp://172.30.3.63:38971
distributed.scheduler - INFO - Lost all workers
distributed.scheduler - ERROR - Workers don't have promised key: ['tcp://172.30.3.63:38971'], inc-17ff1aa09aeed9c364fc31df7522511e
None
^Cdistributed.scheduler - INFO - End scheduler at u'tcp://<domain>:8786'

worker - dask-worker

(dask-env) ubuntu@ip-172-30-3-63:~$ dask-worker --host <domain-worker>:8786 <domain-scheduler>:8786
distributed.nanny - INFO -         Start Nanny at: 'tcp://172.30.3.63:8786'
distributed.worker - INFO -       Start worker at:    tcp://172.30.3.63:38971
distributed.worker - INFO -          Listening to:    tcp://172.30.3.63:38971
distributed.worker - INFO -              bokeh at:           172.30.3.63:8789
distributed.worker - INFO -              nanny at:           172.30.3.63:8786
distributed.worker - INFO - Waiting to connect to: tcp://<domain-schedule>:8786
distributed.worker - INFO - -------------------------------------------------
distributed.worker - INFO -               Threads:                          1
distributed.worker - INFO -                Memory:                    1.04 GB
distributed.worker - INFO -       Local Directory: /home/ubuntu/dask-worker-space/worker-EnKL22
distributed.worker - INFO - -------------------------------------------------
distributed.worker - INFO -         Registered to: tcp://<domain-scheduler>:8786
distributed.worker - INFO - -------------------------------------------------
distributed.core - INFO - Starting established connection
distributed.worker - INFO - Stopping worker at tcp://172.30.3.63:38971
distributed.worker - WARNING - Heartbeat to scheduler failed
distributed.nanny - INFO - Closing Nanny at 'tcp://172.30.3.63:8786'
distributed.dask_worker - INFO - End worker

如您所见，运行x.result()后 session 终止。我还尝试包含 --listen-address、--contact-address 但没有成功。

最佳答案

解决方案是为 dask-scheduler 和 dask-worker 提供特定的开放端口来使用，而不是允许它们选择其他随机端口。命令应如下所示:

调度程序

dask-scheduler --host <domain-scheduler> --port 8786 --bokeh-port <open-port>

worker

dask-worker --host <domain-worker> <domain-scheduler>:8786 --worker-port 8786

终端

client = Client('tcp://<domain-scheduler>:8786')

关于amazon-ec2 - 在 EC2 实例中使用 Dask 会抛出 "Couldn' t 收集 1 个 key ...”，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51354166/

30

4

0

文章推荐： docker - 在hadoop-3.1.3中运行一个mapper和reducer程序

文章推荐： javascript - CSS/jQuery 菜单在 IE7 中不起作用

文章推荐： javascript - 如何使用 javascript 或 jquery 添加 html 标签？

amazon-ecs - AWS ECS(容器服务)虽然连接了 ECS 代理，但没有启动容器
尽管我的 EC2 实例(带有针对 ECS 优化的 AIM)正在运行 ecs 代理，但容器并未在我的 EC2 中启动。为了确认 ecs-agent 正在我的 EC2 实例上运行，我检查了: ecs 日志
amazon-ecs - ECS 任务的动态端口映射
我想在一个任务定义中使用客户端和服务器在 aws ecs 中运行套接字程序。当我使用 awsvpc 网络模式并每次连接到本地主机上的服务器时，我都可以运行它。这很好，所以我不需要知道服务器的 IP 地
amazon-ecs - 如何在没有负载均衡器的情况下访问 ECS 服务？
我有一个在 AWS ECS 上运行的 Docker 容器。我不想要负载均衡器，因为容器是用来处理 websocket 连接的。 https://aws.amazon.com/getting-start
amazon-web-services - 带有 `aws ecs run-task` 后跟 `aws ecs execute-command` 的 Amazon ECS 的 Docker 镜像中的交互式 shell
我想在我的 AWS ECS/Fargate 集群上的公共(public) Docker 镜像中启动交互式 shell，以便从集群内部运行网络/连接测试。似乎官方的方法是使用 aws ecs run-
amazon-ecs - 如何调试 ECS Fargate 服务由于弹性负载均衡器运行状况检查不正常而偶尔重启任务
我在 ECS Fargate 上托管了一个 Shiny 的应用程序。它运行得相当好，但偶尔在使用该应用程序时它会崩溃。我在事件选项卡中将其追溯到以下内容: service YYYY has start
amazon-ecs - 如何在 AWS ECS 容量提供程序中计算目标容量百分比
在 AWS ECS 中创建容量提供程序时。我们正在填充的值 Target capacity %，在超过这个值后我们的集群缩小，但我很好奇当前集群的这个值是如何计算的，如果我想检查当前的是什么集群的值(
amazon-ecs - 如何在 AWS ECS 容量提供程序中计算目标容量百分比
在 AWS ECS 中创建容量提供程序时。我们正在填充的值 Target capacity %，在超过这个值后我们的集群缩小，但我很好奇当前集群的这个值是如何计算的，如果我想检查当前的是什么集群的值(
amazon-ecs - 管道永远不会通过代码管道完成部署 AWS ECS Fargate 任务
我在 AWS 上设置了具有多个目标组和应用程序负载均衡器的 Fargate ecs 服务。它按预期运行。然后我尝试使用本教程设置管道 https://docs.aws.amazon.com/Amaz
amazon-ecs - 如何确定每个日期的 ECS 服务的 Cloudwatch 日志流
我有一个运行任务的 ECS 集群服务，可以使用 AWS 控制台查看其 Cloudwatch 日志流。如何为 awslogs-stream-prefix 设置日期，因为我想按日期识别日志流。 "c
amazon-ecs - 如何在 CodePipeline 中处理 ECS 部署以更改任务定义
我正在使用两个容器部署 ECS Fargate 任务:1 个反向代理 nginx 和 1 个 python 服务器。对于每个我有一个 ECR 存储库，我有一个 CI/CD CodePipeline 设
amazon-ecs - 在 ECS 部署中更新 Docker 镜像
我在 AWS ECS 上部署了一个 CloudFormation 堆栈，比如 teststack , 通过命令 aws cloudformation deploy --template-file ./
amazon-ecs - 使用 AWS ECS Fargate 进行水平和垂直自动扩展
我这里有一些具体的用例。我需要自动扩展在 ECS Fargate 上运行的分布式 Web 应用程序。问题是所有节点都需要在内存中保留相同的数据(因此增加节点数量无助于内存压力)。因此，只有在水平(添加
amazon-ecs - AWS ECS 任务内存和 CPU 分配
我正在寻找有关为 ECS 任务分配内存的指南。我正在为希望在服务器成本上尽可能便宜的客户运行 Rails 应用程序。我正在查看具有 2 个 CPU 和 4 GB 内存的中等服务器大小。大多数情况下，
docker - ECS Fargate 部署卡住，无法部署 ECS 服务
我是 ECS 新手，我正在尝试使用 Cloudformation 部署它。我通过查看文档以及从博客和一些文章中找到的一些示例来制作以下 cloudformation 模板。但是，由于某种原因，它在
amazon-ecs - 如何在基于 Python 的 ECS 任务中读取环境变量
也许这很愚蠢，但如果我创建一个 ECS 任务定义(例如参见 https://aws.amazon.com/blogs/compute/better-together-amazon-ecs-and-aw
amazon-ecs - memoryReservation 在带有 Fargate 的 ECS 上实际上做了什么？
ECS 的容器定义允许您指定 memoryReservation对于每个容器: The soft limit (in MiB) of memory to reserve for the contain
amazon-ecs - 无法将弹性 IP 地址关联到我的 AWS ECS 实例
我在 ca-central 区域创建了一个 AWS ECS 实例。它与每次更新服务时都会更改的动态公共(public) ip 一起使用。到目前为止一切都很好。由于需要一个公网静态IP，所以我在同一区
amazon-ecs - ECS TaskDefinition 创建失败，错误为 "Invalid containerPort'“
Invalid 'containerPort' setting for container 'prerenderContainer'.(Service: AmazonECS; Status Code:
amazon-web-services - 使用 ECS 容量提供程序和使用 ECS 集群中自动伸缩组的自动伸缩有什么区别？
如果我在 ECS 服务级别进行自动扩展，我看不到使用容量提供程序扩展 ECS 集群的意义: https://docs.aws.amazon.com/AmazonECS/latest/developer
amazon-ecs - 使用 ECS 进行 Prometheus DNS 服务发现
关闭。这个问题不符合 Stack Overflow guidelines 。它目前不接受答案。想改进这个问题？更新问题，使其成为 Stack Overflow 的 on-topic。 1年前关闭。

首页

博学

6Ren·AI

商城

amazon-ec2 - 在 EC2 实例中使用 Dask 会抛出 "Couldn' t 收集 1 个 key ...”