- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我试过运行 Graphcore 的 GitHub 代码示例之一,Tensorflow simple replication one跟随自述文件 --replication-factor 16
,并抛出以下错误:
tensorflow.python.framework.errors_impl.InternalError: Failed to attach to any of the device(s) with matching configs for ordinal 0
gc-info -l
作为调试工具,它可以正确显示机箱上可用的所有 IPU 配置。之前还好好的,好像还挺有气质的。我试过重新启动,但过一会儿又随机出现错误。任何帮助将非常感激。
最佳答案
此故障可能是由 IPU 忙于运行其他进程或由不正确的环境配置引起的。
1. IPU 忙
当您执行 Poplar 程序(或使用 IPU 库的特定于框架的模型)时,您需要一定数量的 IPU。例如,如果您请求运行具有 2 个 IPU 的程序,但其他人已经在使用机箱上的所有 IPU,那么您的程序将无法连接并抛出与您所看到的类似的错误。对于这种情况,您只需等待所需数量的 IPU 可用即可。
您可以使用 gc-monitor
来验证设备是否正忙。命令行工具(参见 IPU Command Line tools guide 以供引用)。这是一台繁忙的机器的样子:
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------------------------+-----------------+
| Attached processes | IPU | Board |
+--------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+--------+------------+----+----------+--------+--------+--------+
| PID | Command | Time | User | ID | Clock | Temp | Temp | Power |
+--------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+--------+------------+----+----------+--------+--------+--------+
| 32778 | python | 7m34s | User_Name | 0 | 1300MHz | 37.1 C | 41.5 C |104.7 W |
+--------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+--------+------------+----+----------+--------+--------+--------+
+--------------------------------------------------------------------------------------------------+
| No attached processes |
+--------------------------------------------------------------------------------------------------+
gc-driver
未激活
gc-info -l
来检查驱动程序是否已激活。 .如果不是,则 gc-info 将输出:
gc-info: command not found
tensorflow.python.framework.errors_impl.InvalidArgumentError: Target configuration failed: model disabled and no hardware IPU found. (Are you sure you enabled the Poplar driver?)
gc-info -l
输出通常会列出您的硬件平台中可用的所有 IPU。
gc-driver
你应该确保来源
gc-driver
启用脚本如下:
source <path_to_sdk>/gc_drivers-ubuntu_<ubuntu_version>-<sdk_version> <hash>/enable.sh
gc-info -l
工作正常,因此您似乎更喜欢遇到案例 1。
gc-driver
未安装
$ modinfo ipu_driver
filename: /lib/modules/4.15.0-58-generic/updates/dkms/ipu_driver.ko
version: 1.0.41
关于tensorflow - 运行简单的 TensorFlow 代码示例时,无法连接到任何 Graphcore IPU 设备,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61754574/
为什么我指定 ipu4 和 ipu4_ex 都像下面的命令一样在 docker 中使用 ipu 设备? docker run --device=/dev/**ipu4**:/dev/ipu4 --de
为什么我指定 ipu4 和 ipu4_ex 都像下面的命令一样在 docker 中使用 ipu 设备? docker run --device=/dev/**ipu4**:/dev/ipu4 --de
小码是否可以引用其他文件(如头文件)中的代码? 如果我有一个小码文件 //FileA.cpp #include "FileB.h" class SomeCustomVertex
我使用 C++ 接口(interface)编写了一个非常简单的 PopART 程序,但每次我尝试将其编译为在 IPU 设备上运行时,我都会收到以下错误: terminate called after
我试过运行 Graphcore 的 GitHub 代码示例之一,Tensorflow simple replication one跟随自述文件 --replication-factor 16 ,并抛出
我正在尝试从 Graphcore’s examples repo 运行 CNN 训练作为 Graphcore 的 TensorFlow 1.5 Docker 镜像的非根用户,但它正在抛出: 2020-
我正在尝试在 imx6 var dart 上运行最新的主线内核 (5.1.1)。目标是从并行 IPU (adv7180) 获取视频并通过网络发送。 在 5.0 版本中,我使用这些命令来绑定(bind)
我正在尝试从 Graphcore 公共(public)示例 (MNIST) 中运行 TensorFlow2 示例。我使用的是 IPU 模型而不是 IPU 硬件,因为我的机器无法访问 IPU 硬件,所以
我有一个 TensorFlow 模型,它被编译为 XLA,用于一些 Graphcore IPU。出于调试目的,我试图将 XLA 图转储到 .dot 文件中,以便在我的浏览器中将其可视化。 为此,我使用
我是一名优秀的程序员,十分优秀!