gpt4 book ai didi

tensorflow - 运行简单的 TensorFlow 代码示例时,无法连接到任何 Graphcore IPU 设备

转载 作者:行者123 更新时间:2023-12-03 14:00:09 28 4
gpt4 key购买 nike

我试过运行 Graphcore 的 GitHub 代码示例之一,Tensorflow simple replication one跟随自述文件 --replication-factor 16 ,并抛出以下错误:

tensorflow.python.framework.errors_impl.InternalError: Failed to attach to any of the device(s) with matching configs for ordinal 0 

我不确定为什么它无法附加:我尝试使用 gc-info -l作为调试工具,它可以正确显示机箱上可用的所有 IPU 配置。之前还好好的,好像还挺有气质的。我试过重新启动,但过一会儿又随机出现错误。任何帮助将非常感激。

最佳答案

此故障可能是由 IPU 忙于运行其他进程或由不正确的环境配置引起的。

1. IPU 忙

当您执行 Poplar 程序(或使用 IPU 库的特定于框架的模型)时,您需要一定数量的 IPU。例如,如果您请求运行具有 2 个 IPU 的程序,但其他人已经在使用机箱上的所有 IPU,那么您的程序将无法连接并抛出与您所看到的类似的错误。对于这种情况,您只需等待所需数量的 IPU 可用即可。
您可以使用 gc-monitor 来验证设备是否正忙。命令行工具(参见 IPU Command Line tools guide 以供引用)。这是一台繁忙的机器的样子:

+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------------------------+-----------------+
| Attached processes | IPU | Board |
+--------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+--------+------------+----+----------+--------+--------+--------+
| PID | Command | Time | User | ID | Clock | Temp | Temp | Power |
+--------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+--------+------------+----+----------+--------+--------+--------+
| 32778 | python | 7m34s | User_Name | 0 | 1300MHz | 37.1 C | 41.5 C |104.7 W |
+--------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+--------+------------+----+----------+--------+--------+--------+


这是闲置机器的样子:
+--------------------------------------------------------------------------------------------------+
| No attached processes |
+--------------------------------------------------------------------------------------------------+

2. gc-driver未激活

您可以通过运行 gc-info -l 来检查驱动程序是否已激活。 .如果不是,则 gc-info 将输出:
gc-info: command not found
否则,如果您正在运行,例如TensorFlow 应用程序,您可能会遇到以下错误(或类似错误):
tensorflow.python.framework.errors_impl.InvalidArgumentError: Target configuration failed: model disabled and no hardware IPU found. (Are you sure you enabled the Poplar driver?) 

另一方面,如果驱动程序被激活, gc-info -l输出通常会列出您的硬件平台中可用的所有 IPU。

激活 gc-driver你应该确保来源 gc-driver启用脚本如下:
source <path_to_sdk>/gc_drivers-ubuntu_<ubuntu_version>-<sdk_version> <hash>/enable.sh 

在您的情况下, gc-info -l工作正常,因此您似乎更喜欢遇到案例 1。

3. gc-driver未安装

要检查 gc-driver 是否安装正确,您可以运行:
$ modinfo ipu_driver 

这应该输出类似于您的控制台的内容:
filename:       /lib/modules/4.15.0-58-generic/updates/dkms/ipu_driver.ko 
version: 1.0.41

关于tensorflow - 运行简单的 TensorFlow 代码示例时,无法连接到任何 Graphcore IPU 设备,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61754574/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com