tensorflow - Nvidia TX1上的TensorFlow-6ren

tensorflow - Nvidia TX1上的TensorFlow

转载作者：行者123 更新时间：2023-12-04 00:57:45

有人在Nvidia Tegra X1上使用了tensorflow吗？

我发现一些资料表明TK1上可能存在这种情况，或者TX1上存在严重的黑客入侵/错误，但尚无确定的配方。

http://cudamusing.blogspot.de/2015/11/building-tensorflow-for-jetson-tk1.html

https://github.com/tensorflow/tensorflow/issues/851

我正在使用Jetson 2.3安装程序，但尚未使它工作-最感谢任何提示。

最佳答案

TensorFlow R0.9在带有Bazel 0.2.1，CUDA 8.0，CUDNN5.1，L4T24.2和全新JetPack 2.3的TX1上运行。我已经使用BN，Sigmoid，ReLU等使用基本的MLP，Conv和LSTM网络对其进行了测试，并且没有错误。我删除了sparse_matmul_op，但否则认为编译应该可以完全正常运行。其中许多步骤直接来自MaxCuda's excellent blog，非常感谢他们的提供。

计划继续对R0.10/R0.11进行锤击(gRPC二进制文件现在阻止了Bazel 0.3.0)，但直到那时我才确定要发布R0.9公式。如下:

先得到java

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer

安装其他一些部门

sudo apt-get install git zip unzip autoconf automake libtool curl zlib1g-dev maven swig

需要自己构建protobuf 3.0.0-beta-2 jar

git clone https://github.com/google/protobuf.git
cd protobuf
# autogen.sh downloads broken gmock.zip in d5fb408d
git checkout master
./autogen.sh
git checkout d5fb408d
./configure --prefix=/usr
make -j 4
sudo make install
cd java
mvn package

换上榛子。我们需要版本0.2.1，与0.3.0不同，它不需要gRPC二进制文件，而我还无法构建(可能很快!)

git clone https://github.com/bazelbuild/bazel.git
cd bazel
git checkout 0.2.1
cp /usr/bin/protoc third_party/protobuf/protoc-linux-arm32.exe
cp ../protobuf/java/target/protobuf-java-3.0.0-beta-2.jar third_party/protobuf/protobuf-java-3.0.0-beta-1.jar

需要编辑bazel文件以将aarch64识别为ARM

--- a/src/main/java/com/google/devtools/build/lib/util/CPU.java
+++ b/src/main/java/com/google/devtools/build/lib/util/CPU.java
@@ -25,7 +25,7 @@ import java.util.Set;
 public enum CPU {
   X86_32("x86_32", ImmutableSet.of("i386", "i486", "i586", "i686", "i786", "x86")),
   X86_64("x86_64", ImmutableSet.of("amd64", "x86_64", "x64")),
-  ARM("arm", ImmutableSet.of("arm", "armv7l")),
+  ARM("arm", ImmutableSet.of("arm", "armv7l", "aarch64")),
   UNKNOWN("unknown", ImmutableSet.<String>of());

现在编译

./compile.sh

并安装

sudo cp output/bazel /usr/local/bin

获取tensorflow R0.9。高于R0.9需要Bazel 0.3.0，由于gRPC问题，我还没有弄清楚该如何构建。

git clone -b r0.9 https://github.com/tensorflow/tensorflow.git

建立一次。它将失败，但是现在您有了bazel .cache目录，您可以在其中放置更新的config.guess和config.sub文件，这些文件将确定您正在运行的体系结构

./configure
bazel build -c opt --config=cuda //tensorflow/tools/pip_package:build_pip_package

cd ~
wget -O config.guess 'http://git.savannah.gnu.org/gitweb/?p=config.git;a=blob_plain;f=config.guess;hb=HEAD'
wget -O config.sub 'http://git.savannah.gnu.org/gitweb/?p=config.git;a=blob_plain;f=config.sub;hb=HEAD'

# below are commands I ran, yours will vary depending on .cache details. `find` is your friend
cp config.guess ./.cache/bazel/_bazel_socialh/742c01ff0765b098544431b60b1eed9f/external/farmhash_archive/farmhash-34c13ddfab0e35422f4c3979f360635a8c050260/config.guess
cp config.sub ./.cache/bazel/_bazel_socialh/742c01ff0765b098544431b60b1eed9f/external/farmhash_archive/farmhash-34c13ddfab0e35422f4c3979f360635a8c050260/config.sub

sparse_matmul_op有几个错误，我走了怯弱的路线，从构建中删除了

--- a/tensorflow/core/kernels/BUILD
+++ b/tensorflow/core/kernels/BUILD
@@ -985,7 +985,7 @@ tf_kernel_libraries(
         "reduction_ops",
         "segment_reduction_ops",
         "sequence_ops",
-        "sparse_matmul_op",
+        #DC "sparse_matmul_op",
     ],
     deps = [
         ":bounds_check",

--- a/tensorflow/python/BUILD
+++ b/tensorflow/python/BUILD
@@ -1110,7 +1110,7 @@ medium_kernel_test_list = glob([
     "kernel_tests/seq2seq_test.py",
     "kernel_tests/slice_op_test.py",
     "kernel_tests/sparse_ops_test.py",
-    "kernel_tests/sparse_matmul_op_test.py",
+    #DC "kernel_tests/sparse_matmul_op_test.py",
     "kernel_tests/sparse_tensor_dense_matmul_op_test.py",
 ])

TX1无法在cwise_op_gpu_select.cu.cc中执行漂亮的构造函数

--- a/tensorflow/core/kernels/cwise_op_gpu_select.cu.cc
+++ b/tensorflow/core/kernels/cwise_op_gpu_select.cu.cc
@@ -43,8 +43,14 @@ struct BatchSelectFunctor<GPUDevice, T> {
     const int all_but_batch = then_flat_outer_dims.dimension(1);

 #if !defined(EIGEN_HAS_INDEX_LIST)
-    Eigen::array<int, 2> broadcast_dims{{ 1, all_but_batch }};
-    Eigen::Tensor<int, 2>::Dimensions reshape_dims{{ batch, 1 }};
+    //DC Eigen::array<int, 2> broadcast_dims{{ 1, all_but_batch }};
+    Eigen::array<int, 2> broadcast_dims;
+    broadcast_dims[0] = 1;
+    broadcast_dims[1] = all_but_batch;
+    //DC Eigen::Tensor<int, 2>::Dimensions reshape_dims{{ batch, 1 }};
+    Eigen::Tensor<int, 2>::Dimensions reshape_dims;
+    reshape_dims[0] = batch;
+    reshape_dims[1] = 1;
 #else
     Eigen::IndexList<Eigen::type2index<1>, int> broadcast_dims;
     broadcast_dims.set(1, all_but_batch);

sparse_tensor_dense_matmul_op_gpu.cu.cc中的内容相同

--- a/tensorflow/core/kernels/sparse_tensor_dense_matmul_op_gpu.cu.cc
+++ b/tensorflow/core/kernels/sparse_tensor_dense_matmul_op_gpu.cu.cc
@@ -104,9 +104,17 @@ struct SparseTensorDenseMatMulFunctor<GPUDevice, T, ADJ_A, ADJ_B> {
     int n = (ADJ_B) ? b.dimension(0) : b.dimension(1);

 #if !defined(EIGEN_HAS_INDEX_LIST)
-    Eigen::Tensor<int, 2>::Dimensions matrix_1_by_nnz{{ 1, nnz }};
-    Eigen::array<int, 2> n_by_1{{ n, 1 }};
-    Eigen::array<int, 1> reduce_on_rows{{ 0 }};
+    //DC Eigen::Tensor<int, 2>::Dimensions matrix_1_by_nnz{{ 1, nnz }};
+    Eigen::Tensor<int, 2>::Dimensions matrix_1_by_nnz;
+    matrix_1_by_nnz[0] = 1;
+    matrix_1_by_nnz[1] = nnz;
+    //DC Eigen::array<int, 2> n_by_1{{ n, 1 }};
+    Eigen::array<int, 2> n_by_1;
+    n_by_1[0] = n;
+    n_by_1[1] = 1;
+    //DC Eigen::array<int, 1> reduce_on_rows{{ 0 }};
+    Eigen::array<int, 1> reduce_on_rows;
+    reduce_on_rows[0] = 0;
 #else
     Eigen::IndexList<Eigen::type2index<1>, int> matrix_1_by_nnz;
     matrix_1_by_nnz.set(1, nnz);

与CUDA 8.0一起运行需要FP16的新宏。非常感谢Kashif/Mrry指出了解决方法!

--- a/tensorflow/stream_executor/cuda/cuda_blas.cc
+++ b/tensorflow/stream_executor/cuda/cuda_blas.cc
@@ -25,6 +25,12 @@ limitations under the License.
 #define EIGEN_HAS_CUDA_FP16
 #endif

+#if CUDA_VERSION >= 8000
+#define SE_CUDA_DATA_HALF CUDA_R_16F
+#else
+#define SE_CUDA_DATA_HALF CUBLAS_DATA_HALF
+#endif
+
 #include "tensorflow/stream_executor/cuda/cuda_blas.h"

 #include <dlfcn.h>
@@ -1680,10 +1686,10 @@ bool CUDABlas::DoBlasGemm(
   return DoBlasInternal(
       dynload::cublasSgemmEx, stream, true /* = pointer_mode_host */,
       CUDABlasTranspose(transa), CUDABlasTranspose(transb), m, n, k, &alpha,
-      CUDAMemory(a), CUBLAS_DATA_HALF, lda,
-      CUDAMemory(b), CUBLAS_DATA_HALF, ldb,
+      CUDAMemory(a), SE_CUDA_DATA_HALF, lda,
+      CUDAMemory(b), SE_CUDA_DATA_HALF, ldb,
       &beta,
-      CUDAMemoryMutable(c), CUBLAS_DATA_HALF, ldc);
+      CUDAMemoryMutable(c), SE_CUDA_DATA_HALF, ldc);
 #else
   LOG(ERROR) << "fp16 sgemm is not implemented in this cuBLAS version "
              << "(need at least CUDA 7.5)";

最后，ARM没有NUMA节点，因此需要添加它，否则在启动tf.Session()时会立即崩溃。

--- a/tensorflow/stream_executor/cuda/cuda_gpu_executor.cc
+++ b/tensorflow/stream_executor/cuda/cuda_gpu_executor.cc
@@ -888,6 +888,9 @@ CudaContext* CUDAExecutor::cuda_context() { return context_; }
 // For anything more complicated/prod-focused than this, you'll likely want to
 // turn to gsys' topology modeling.
 static int TryToReadNumaNode(const string &pci_bus_id, int device_ordinal) {
+  // DC - make this clever later. ARM has no NUMA node, just return 0
+  LOG(INFO) << "ARM has no NUMA node, hardcoding to return zero";
+  return 0;
 #if defined(__APPLE__)
   LOG(INFO) << "OS X does not support NUMA - returning NUMA node zero";
   return 0;

完成这些更改后，构建并安装!希望这对某些人有用。

关于tensorflow - Nvidia TX1上的TensorFlow，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39783919/

文章推荐： jestjs - Jest + React-testing-library - 等待模拟的异步函数完成

文章推荐： concurrency - 并行编程入门

tensorflow - NVIDIA-SMI 失败，因为它无法与 NVIDIA 驱动程序通信。确保安装并运行了最新的 NVIDIA 驱动程序。为什么？
我正在尝试在 Google Colab 上运行 stylegan2，但在我的 Drive 上运行所有文件，并避免使用 !git clone 从 github of stylegan2 。这是我在特定
tensorflow - 如何卸载 NVIDIA 内核模块 'nvidia' 以安装新驱动程序？
我需要升级我的 nvidia 驱动程序，以便尝试运行 NVIDIA-LInux-x86_64.run文件但是，我看到以下消息 ERROR: An NVIDIA kernel module 'nvid
nvidia - Cuda 内核代码驻留在 nvidia GPU 上的什么位置？
我经历过Cuda programming guide但仍然不清楚 cuda 内核在 GPU 上的什么位置？换句话说，它驻留在哪个内存段？另外，我怎么知道我的设备支持的最大内核大小是多少？最大内核大小
docker - nvidia/cuda 镜像中的 NVidia 驱动程序库
我想在基于官方nvidia/cuda的容器中运行带有cuvid硬件加速解码的ffmpeg图片。 Ffmpeg 无法找到 libnvcuvid.so，尽管有所有必需的 cuda 库。ldconfig -
ubuntu - nvidia-smi 和 nvidia x 服务器设置之间的顺序不同
当我运行命令 nvidia-smi ，我得到以下两个按总线 ID 排序的 GPU: For GPU 0, 00000000:0A:00.0 For GPU 1, 00000000:41:00.0 但是
gpu - NVIDIA-SMI 失败，因为无法与 NVIDIA 驱动程序通信
我正在使用 Ubuntu 14.04 LTS 运行 AWS EC2 g2.2xlarge 实例。我想在训练 TensorFlow 模型时观察 GPU 利用率。我在尝试运行“nvidia-smi”时遇到
docker - Nvidia-docker : Unknown runtime specified nvidia
我尝试在安装 docker-ce 后安装 nvidia-docker。我关注的是:https://github.com/NVIDIA/nvidia-docker安装 nvidia-docker。看来已
cuda - Nvidia Hyper Q 和 Nvidia Streams 有什么区别？
我一直认为 Hyper-Q 技术不过是 GPU 中的流。后来我发现我错了(是吗？)。所以我读了一些关于 Hyper-Q 的书，却更加困惑了。我正在浏览一篇文章，它有以下两个陈述: A. Hyper-
cuda - 如何用 NVIDIA GPU 解释这个关于 `nvidia-smi` 的数字？
我刚刚在安装了两个 K20m GPU 的服务器中运行了 simpleMultiGPU。然后运行 nvidia-smi 命令来显示 GPU 的状态。结果如下: 问题如下: GPU 内存使用情况似乎不
linux - 错误 : NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver
NVIDIA-SMI 抛出此错误: NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make
nvidia - 如何通过 Vulkan 使用 Nvidia 的 Tensor Core
如何使用 Vulkan 来利用 Nvidia 的张量核心(在计算着色器中？!)？ Nvidia 有这篇文章 Programming Tensor Cores in CUDA 9 ，但这显然是针对 CU
nvidia - 使用 Chapel 使用两个 Nvidia Jetson nano 开发工具包时遇到问题
我在类的一个项目中使用 Chapel，我正在尝试使用我的两个 Nvidia Jetson nano 板进行多语言环境执行。按照本教程 https://chapel-lang.org/docs/usin
tensorflow - 内存使用指标 `nvidia-smi dmon` 与 `nvidia-smi` 之间有何差异
我得到nvidia-smi得到Memory-Usage是这样的 $nvidia-smi -i 0,1 Wed Mar 4 16:20:07 2020 +-----------------
tensorflow - 内存使用指标 `nvidia-smi dmon` 与 `nvidia-smi` 之间有何差异
我得到nvidia-smi得到Memory-Usage是这样的 $nvidia-smi -i 0,1 Wed Mar 4 16:20:07 2020 +-----------------
docker - nvidia-docker run 与 docker run --runtime=nvidia
有没有区别: nvidia-docker 运行和 docker run --runtime=nvidia ? 在 official docs他们使用后者，但我在其他在线教程中看到过前者。最佳答案
c - 我需要为 OpenCL 安装 Nvidia 的 SDK(CUDA) 来检测 Nvidia GPU 吗？
我有一个用 C 编写的代码(使用 opencl 规范)来列出所有可用的设备。我的 PC 安装了 AMD FirePro 和 Nvidia 的 Tesla 显卡。我先安装了AMD-APP-SDK-v3.
nvidia - cuda内核调用是同步的还是异步的
我读到可以使用内核启动来同步不同的 block ，即，如果我希望所有 block 在进行操作 2 之前完成操作 1，我应该将操作 1 放在一个内核中，将操作 2 放在另一个内核中。这样，我可以实现 b
nvidia - nvapi在d3d10中使用NvAPI_Stereo_SetDriverMode
我目前正在尝试使用函数 NvAPI_Stereo_SetDriverMode 将 nvapi 设置为在直接模式下工作。根据 Nvidia nvapi site (在手册中)，如果你想做一个 dire
cuda - NVIDIA GPU的任务调度
我对nvidia GPU的任务调度有些疑惑。 (1)如果一个 block (CTA)中的线程束已经完成，但仍有其他线程在运行，这个线程会等待其他线程完成吗？换句话说，当所有线程都完成时， block
tensorflow - Nvidia TX1上的TensorFlow
有人在Nvidia Tegra X1上使用了tensorflow吗？我发现一些资料表明TK1上可能存在这种情况，或者TX1上存在严重的黑客入侵/错误，但尚无确定的配方。 http://cudamus

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

tensorflow - Nvidia TX1上的TensorFlow