python - 谷歌 Colab TPU 版本-6ren

python - 谷歌 Colab TPU 版本

转载作者：行者123 更新时间：2023-12-05 09:07:38

26

4

如何在 Google Colab 中打印我正在使用的 TPU 版本以及 TPU 有多少内存？

我得到以下输出

tpu = tf.distribute.cluster_resolver.TPUClusterResolver()
tf.config.experimental_connect_to_cluster(tpu)
tf.tpu.experimental.initialize_tpu_system(tpu)

tpu_strategy = tf.distribute.experimental.TPUStrategy(tpu)

输出

INFO:tensorflow:Initializing the TPU system: grpc://10.123.109.90:8470
INFO:tensorflow:Initializing the TPU system: grpc://10.123.109.90:8470
INFO:tensorflow:Clearing out eager caches
INFO:tensorflow:Clearing out eager caches
INFO:tensorflow:Finished initializing TPU system.
INFO:tensorflow:Finished initializing TPU system.
WARNING:absl:`tf.distribute.experimental.TPUStrategy` is deprecated, please use  the non experimental symbol `tf.distribute.TPUStrategy` instead.
INFO:tensorflow:Found TPU system:
INFO:tensorflow:Found TPU system:
INFO:tensorflow:*** Num TPU Cores: 8
INFO:tensorflow:*** Num TPU Cores: 8
INFO:tensorflow:*** Num TPU Workers: 1
INFO:tensorflow:*** Num TPU Workers: 1
INFO:tensorflow:*** Num TPU Cores Per Worker: 8
INFO:tensorflow:*** Num TPU Cores Per Worker: 8
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:CPU:0, CPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:CPU:0, CPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:XLA_CPU:0, XLA_CPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:XLA_CPU:0, XLA_CPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:CPU:0, CPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:CPU:0, CPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:0, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:0, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:1, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:1, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:2, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:2, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:3, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:3, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:4, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:4, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:5, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:5, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:6, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:6, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:7, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:7, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU_SYSTEM:0, TPU_SYSTEM, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU_SYSTEM:0, TPU_SYSTEM, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:XLA_CPU:0, XLA_CPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:XLA_CPU:0, XLA_CPU, 0, 0)

我想要像 [IN] print('tpu.version:', tpu.version) [OUT] tpu.version: Cloud TPU v3 这样的东西。

我希望有人能帮助我。期待答案!

最佳答案

This answer应该有您要找的东西。

import os
from tensorflow.python.profiler import profiler_client

tpu_profile_service_address = os.environ['COLAB_TPU_ADDR'].replace('8470', '8466')
print(profiler_client.monitor(tpu_profile_service_address, 100, 2))

输出如下:

  Timestamp: 22:23:03
  TPU type: TPU v2
  Utilization of TPU Matrix Units (higher is better): 0.000%

TPUv2 每核 8GB，TPUv3 每核 16GB HBM (https://cloud.google.com/tpu)。

关于python - 谷歌 Colab TPU 版本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64719177/

26

4

0

文章推荐： python - Pandas :按最大值分组和对组求和的最快方法

文章推荐： javascript - auth' 未从 React 应用程序中的 'firebase' 导出

tpu - 无法连接到 Coral 开发板 (Edge TPU)
按照 Get Started with Edge TPU Dev Board 上的说明进行操作，我无法通过第 2 步: $ screen /dev/ttyUSB0 115200 问题是屏幕立即返回 [
machine-learning - Colab TPU 错误 - 由输出 cond_8/Merge:0 引起的 InvalidArgumentError : Unsupported data type for TPU: double,
我正在尝试使用 TPU 在 google colab 上进行一些基本的字符分类。我收到以下错误: InvalidArgumentError: Unsupported data type for TPU
tensorflow - 如何将自定义数据集生成器与 TPU 结合使用？
我的数据集很大(大约 13gb)。我有一个数据集的 hdf5 文件，我正在使用自定义生成器从数据集中加载批处理。我的模型在 Kaggle GPU 上运行良好，但当我切换到 TPU 时出现错误。下面是我
tensorflow - Keras:TPU 模型的所有操作都必须具有恒定的形状
我正在使用预训练的 keras 模型，我想在 Google Colaboratory 的 TPU 上运行它，但出现以下错误: ValueError: Layer has a variable shap
CPU、GPU、TPU、NPU等到底是什么？
CPU即中央处理器(Central Processing Unit) GPU即图形处理器(Graphics Processing Unit) TPU即谷歌的张量处理器(Tens
python - 谷歌 Colab TPU 版本
如何在 Google Colab 中打印我正在使用的 TPU 版本以及 TPU 有多少内存？我得到以下输出 tpu = tf.distribute.cluster_resolver.TPUClust
python - Google Cloud - TPU 节点资源名称
我正在尝试使用 TPU client API 创建 Google Cloud TPU 节点我无法找出 Google Cloud 中 TPU 节点的父资源名称。下面你可以找到我用来创建节点的完整代码，
tensorflow - 如何找到更多关于您正在运行程序的 Cloud TPU 设备的信息？
无论我们是使用 Google Colab 还是直接访问 Cloud TPU，以下程序仅提供有关底层 TPU 的有限信息: import os import tensorflow as tf tpu_a
python - 在 Tensorflow TPU 上乘以大量矩阵和向量
我试图在 TPU 上乘以 3000 个独立的矩阵和向量以加快计算速度，但我遇到了一些问题。我无法得到最终结果，我也很感兴趣是否有更好的解决方案。代码如下: import time import nu
python - 使用分布式策略在 Colab TPU 上训练模型
我正在尝试使用 TPU 在 Colab 上训练和运行图像分类模型。没有pytorch。我知道 TPU 仅适用于来自 GCS 存储桶的文件，因此我从存储桶加载数据集，并且还评论了检查点和日志记录功能，
使用 TPU 的 TensorFlow 对象检测训练错误
我正在关注 Google's object detection on a TPU发布并在培训方面碰壁。查看作业日志，我可以看到 ml-engine 为各种软件包运行了大量 pip 安装，配置了 TP
python - 如何在 PyTorch 中使用 TPU？
我正在尝试使用 pytorch_xla 使用 TPU，但它在 _XLAC 中显示导入错误。 !curl https://raw.githubusercontent.com/pytorch/xla/ma
tensorflow - 检查 TPU 工作负载/利用率
我正在训练一个模型，当我在 Google Cloud Platform 控制台中打开 TPU 时，它会向我显示 CPU 利用率(我想是在 TPU 上)。它真的非常非常低(比如 0.07%)，所以也许是
python - Google colab TPU 并在训练时从光盘读取
我有 100k 张照片，它不适合内存，所以我需要在训练时从光盘读取它。 dataset = tf.data.Dataset.from_tensor_slices(in_pics) dataset =
tensorflow - TPU 比 GPU 慢？
我刚刚在 Google Colab 中尝试使用 TPU，我想看看 TPU 比 GPU 快多少。令人惊讶的是，我得到了相反的结果。以下是NN。 random_image = tf.random_n
python - 如何在 TPU 的其他模型中使用 keras 模型
我正在尝试将 keras 模型转换为 google colab 中的 tpu 模型，但该模型内部有另一个模型。看一下代码: https://colab.research.google.com/dri
tensorflow - 如何在 Google Cloud 中选择特定的 TPU？
我正在尝试在 Google 云上使用 TPU，并且正在尝试弄清楚如何指定要使用的正确 TPU。我正在尝试遵循快速入门 https://cloud.google.com/tpu/docs/quickst
tensorflow - 关于如何在 TPU 云上运行自定义 keras 代码
我编写的代码可以在 GPU 上运行，但实验的周转时间很长。我想移植这段代码，以便可以在 TPU 上运行它。我怎么能这样做？这就是我所拥有的。 Bunch of datloading stuff !!!
google-colaboratory - colab 上的 TPU 规范
我如何在 colab 上查看 TPU 的规范，对于 GPU，我可以使用类似的命令 nvidia-smi 但它不适用于 TPU，我如何查看 TPU 的规范？最佳答案我找不到来源。但据说 Colab
tensorflow - 在 TPU 上使用大型 tensorflow 数据集
以 TPU 可接受的方式缓存/生成数据集的最佳策略是什么？到目前为止，我设法在自己创建的数据集上训练 tensorflow 模型。每个数据点都基于大型时间序列进行大量设计，使用基于 numpy、pa

首页

博学

6Ren·AI

商城

python - 谷歌 Colab TPU 版本