python - 如何为我的 tensorflow 模型提高此数据管道的性能-6ren

python - 如何为我的 tensorflow 模型提高此数据管道的性能

转载作者：太空狗更新时间：2023-10-29 17:30:36

我有一个正在训练的 tensorflow 模型 google-colab .实际模型更复杂，但我将其压缩为 reproducible example (删除了保存/恢复、学习率衰减、断言、tensorboard 事件、梯度裁剪等)。该模型运行合理(收敛到可接受的损失)，我正在寻找加速训练的方法(每秒迭代次数)。

目前在 colab 的 GPU 上训练 1000 次迭代需要 10 分钟。我当前的批量大小为 512，这意味着模型每秒处理 ~850 个示例(我更喜欢批量大小为 512，除非其他大小提供合理的加速。改变批量大小本身不会改变速度)。

所以目前我有一个以 tfrecord 格式存储的数据:这里是一个 500Mb example file ，总数据大小约为 0.5Tb。该数据经过相当繁重的预处理步骤(我无法预先进行预处理，因为它会使我的 tfrecords 的大小增加到我可以承受的范围之外)。预处理通过 tf.data 完成并将输出张量 ((batch_size, 8, 8, 24) 视为 NHWC, (batch_size, 10)) 传递到模型中。示例 colab 不包含仅用作示例的简化模型。

我尝试了几种加速训练的方法:

manual device placement (在 cpu 上进行数据预处理，在 gpu 上传播)，但我所有的尝试都导致速度变差(从 10% 增加到 50%)。
改进数据预处理。我评论了tf.data video和 data tutorials .我尝试了该教程中的几乎所有技术都没有任何改进(速度从 0% 降低到 15%)。特别是我试过:
- dataset.prefetch(...)
- 将 num_parallel_calls 传递给映射
- 在 tf.contrib.data.map_and_batch 中结合 map 和 batch
- 使用parallel_interleave

数据预处理相关的代码在这里(这里是一个full reproducible example和example data):

_keys_to_map = {
    'd': tf.FixedLenFeature([], tf.string),  # data
    's': tf.FixedLenFeature([], tf.int64),   # score
}


def _parser(record):][3]
    parsed = tf.parse_single_example(record, _keys_to_map)
    return parsed['d'], parsed['s']


def init_tfrecord_dataset():
  files_train = glob.glob(DIR_TFRECORDS + '*.tfrecord')
  random.shuffle(files_train)

  with tf.name_scope('tfr_iterator'):
    ds = tf.data.TFRecordDataset(files_train)      # define data from randomly ordered files
    ds = ds.shuffle(buffer_size=10000)             # select elements randomly from the buffer
    ds = ds.map(_parser)                           # map them based on tfrecord format
    ds = ds.batch(BATCH_SIZE, drop_remainder=True) # group elements in batch (remove batch of less than BATCH_SIZE)
    ds = ds.repeat()                               # iterate infinitely 

    return ds.make_initializable_iterator()        # initialize the iterator


def iterator_to_data(iterator):
  """Creates a part of the graph which reads the raw data from an iterator and transforms it to a 
  data ready to be passed to model.

  Args:
    iterator      - iterator. Created by `init_tfrecord_dataset`

  Returns:
    data_board      - (BATCH_SIZE, 8, 8, 24) you can think about as NWHC for images.
    data_flags      - (BATCH_SIZE, 10)
    combined_score  - (BATCH_SIZE,)
  """

  b = tf.constant((128, 64, 32, 16, 8, 4, 2, 1), dtype=tf.uint8, name='unpacked_const')

  with tf.name_scope('tfr_parse'):
    with tf.name_scope('packed_data'):
      next_element = iterator.get_next()
      data_packed, score_int = next_element
      score = tf.cast(score_int, tf.float64, name='score_float')

    # https://stackoverflow.com/q/45454470/1090562
    with tf.name_scope('data_unpacked'):
      data_unpacked = tf.reshape(tf.mod(tf.to_int32(tf.decode_raw(data_packed, tf.uint8)[:,:,None] // b), 2), [BATCH_SIZE, 1552], name='data_unpack')

    with tf.name_scope('score'):
      with tf.name_scope('is_mate'):
        score_is_mate = tf.cast(tf.squeeze(tf.slice(data_unpacked, [0, 1546], [BATCH_SIZE, 1])), tf.float64, name='is_mate')
      with tf.name_scope('combined'):
        combined_score = (1 - score_is_mate) * VALUE_A * tf.tanh(score / VALUE_K) + score_is_mate * tf.sign(score) * (VALUE_A + (1 - VALUE_A) / (VALUE_B - 1) * tf.reduce_max(tf.stack([tf.zeros(BATCH_SIZE, dtype=tf.float64), VALUE_B - tf.abs(score)]), axis=0))


    with tf.name_scope('board'):
      with tf.name_scope('reshape_layers'):
        data_board = tf.reshape(tf.slice(data_unpacked, [0, 0], [BATCH_SIZE, 8 * 8 * 24]), [BATCH_SIZE, 8, 8, 24], name='board_reshape')

      with tf.name_scope('combine_layers'):  
        data_board = tf.cast(tf.stack([
          data_board[:,:,:, 0],
          data_board[:,:,:, 4],
          data_board[:,:,:, 8],
          data_board[:,:,:,12],
          data_board[:,:,:,16],
          data_board[:,:,:,20],
          - data_board[:,:,:, 1],
          - data_board[:,:,:, 5],
          - data_board[:,:,:, 9],
          - data_board[:,:,:,13],
          - data_board[:,:,:,17],
          - data_board[:,:,:,21],
          data_board[:,:,:, 2],
          data_board[:,:,:, 6],
          data_board[:,:,:,10],
          data_board[:,:,:,14],
          data_board[:,:,:,18],
          data_board[:,:,:,22],
          - data_board[:,:,:, 3],
          - data_board[:,:,:, 7],
          - data_board[:,:,:,11],
          - data_board[:,:,:,15],
          - data_board[:,:,:,19],
          - data_board[:,:,:,23],
        ], axis=3), tf.float64, name='board_compact')

    with tf.name_scope('flags'):
      data_flags = tf.cast(tf.slice(data_unpacked, [0, 1536], [BATCH_SIZE, 10]), tf.float64, name='flags')

  return data_board, data_flags, combined_score

我正在寻找实用的解决方案(我已经尝试了大量的理论想法)，以提高训练速度(以示例/秒为单位)。我不是在寻找提高模型准确性(或修改模型)的方法，因为这只是一个测试模型。

我花了很多时间来优化它(并放弃了)。因此，我很乐意悬赏 200 奖励具有良好解释的有效解决方案。

最佳答案

suggestion from hampi分析您的培训工作是一项很好的工作，并且可能有必要了解您管道中的实际瓶颈。 Input Pipeline performance guide中的其他建议应该也很有用。

但是，还有另一种可能有用的“快速修复”。在某些情况下，Dataset.map() 转换中的工作量可能非常小，主要是为每个元素调用函数的成本。在这些情况下，我们经常尝试对 map 函数进行向量化，并将其移动到 Dataset.batch() 转换之后，以减少调用函数的次数(1/512 次，在这种情况下)，并在每个批处理上执行更大且可能更容易并行化的操作。幸运的是，您的管道可以按如下方式矢量化:

def _batch_parser(record_batch):
  # NOTE: Use `tf.parse_example()` to operate on batches of records.
  parsed = tf.parse_example(record_batch, _keys_to_map)
  return parsed['d'], parsed['s']

def init_tfrecord_dataset():
  files_train = glob.glob(DIR_TFRECORDS + '*.tfrecord')
  random.shuffle(files_train)

  with tf.name_scope('tfr_iterator'):
    ds = tf.data.TFRecordDataset(files_train)      # define data from randomly ordered files
    ds = ds.shuffle(buffer_size=10000)             # select elements randomly from the buffer
    # NOTE: Change begins here.
    ds = ds.batch(BATCH_SIZE, drop_remainder=True) # group elements in batch (remove batch of less than BATCH_SIZE)
    ds = ds.map(_batch_parser)                     # map batches based on tfrecord format
    # NOTE: Change ends here.
    ds = ds.repeat()                               # iterate infinitely 

    return ds.make_initializable_iterator()        # initialize the iterator

目前，矢量化是一项您必须手动进行的更改，但 tf.data 团队正在研究 an optimization pass that provides automatic vectorization .

关于python - 如何为我的 tensorflow 模型提高此数据管道的性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53424152/

文章推荐： python - mypy 如何忽略源文件中的一行？

文章推荐： angular - 可以更改 ion-navbar 中的 ion-title 大小吗？

文章推荐： python - py2exe生成dll？

performance - 提高 FOR 循环的性能
我正在比较工作簿中的工作表。该工作簿有两张名为 PRE 和 POST 的工作表，每张工作表都有相同的 19 列。行数每天都不同，但特定一天的两张表的行数相同。该宏将 PRE 工作表中的每一行与 POS
JavaScript:提高 FOR 循环的性能以阻止浏览器锁定？
我有一个对象数组，我一次循环遍历该数组一个对象，然后进行几次检查以查看该数组中的每个对象是否满足特定条件，如果该对象满足此条件，则复制一个属性将此对象放入数组中(该属性还包含另一个对象)。 for(v
c++ - 提高 += 运算符性能
我正在编写一个必须非常快的应用程序。我使用 Qt 5.5 和 Qt Creator，Qt 的 64 位 MSVC2013 编译版本。我使用非常困倦的 CS 来分析我的应用程序，我看到占用最多独占时间
java - 提高 for-each 性能
我有以下 CountDownTimer 在我的 Android 应用程序中不断运行。 CountDownTimer timer_status; timer_status = new CountDown
python - 提高 sklearn 中随机森林回归器的性能
有一个优化问题，我必须调用随机森林回归器的预测函数数千次。 from sklearn.ensemble import RandomForestRegressor rfr = RandomForestR
.net - 提高 nHibernate 数据访问层的性能
我正在努力提高现有 Asp.Net Web 应用程序的数据访问层的性能。场景是。它是一个基于 Web 的 Asp.Net 应用程序。数据访问层使用 NHibernate 1.2 构建并作为 WCF
video - 提高 ffmpeg 视频捕获性能？
我在我的 Intel Edison 上运行 Debian，并尝试使用 ffmpeg 通过 USB 网络摄像头捕获视频。我正在使用的命令是: ffmpeg -f video4linux2 -i /dev
performance - 提高 VBA 中的循环效率
我有一个 For循环遍历整数 1 到 9 并简单地找到与该整数对应的最底部的条目(即 1,1,1,2,3,4,5 将找到第三个“1”条目)并插入一个空白行。我将数字与仅对应于此代码的应用程序的字符串“
sql - 提高 Postgresql 查询的性能
我有一个带有非规范化架构(1 个表)的 postgresql 数据库，其中包含大约 400 万个条目。现在我有这个查询: SELECT count(*) AS Total, (SELECT c
coq - 提高 coq 策略的失败级别
在 Ltac 中实现复杂的策略时，有一些 Ltac 命令或策略调用我预计会失败以及预期失败(例如终止 repeat 或导致回溯)。这些故障通常在故障级别 0 时引发。更高级别引发的故障“逃避”周
performance - 提高 Ansible 性能
我正在尝试提高 ansible playbook 的性能。我有一个测试剧本如下: --- - name: Test hosts: localhost connection: local g
reactjs - 提高 axios 获取下载速度
我正在使用 axios从 Azure 存储 Blob 下载文件 (~100MB)。 axios({ method: 'get', url: uri, onDownloadProgress:
performance - 提高 ClojureScript 程序的性能
我有一个 ClojureScript 程序，主要对集合执行数学计算。它是在惯用的、独立于主机的 Clojure 中开发的，因此很容易对其进行基准测试。令我惊讶的是(与答案对 Which is fast
performance - 提高 jetty 性能
我有一个程序必须在硬件允许的情况下尽快发出数千个 http 请求。在现实世界中，这些连接中的每一个都将连接到一个离散的服务器，但我已经编写了一个测试程序来帮助我模拟负载(希望如此)。我的程序使用 A
performance - 提高 Fortran 代码性能的提示和技巧
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
performance - 提高 Clojure 中点云边界框计算的性能
我正在计算 Clojure 中 3d 点云的边界框。点云表示为 Java 原始浮点数组，点云中的每个点都使用 4 个浮点存储，其中最后一个浮点未使用。像这样: [x0 y0 z0 u0 x1 y1
performance - 提高 magento 性能的最佳步骤是什么？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
r - 提高 R 光线着色器图像的分辨率
我正在尝试使用rayshader 包制作图像。我很高兴能够使用如下代码创建一个 png 文件: library(ggplot2) library(rayshader) example_plot <-
jquery - 提高 jQuery 模板性能
更新显然，jQuery 模板可以被编译，并且它有助于显示带有 if 语句的模板的性能 here . 但是如图here ，预编译的 jQuery 模板对我的情况没有多大作用，因为我的模板不包含逻辑
iphone - 提高 ScrollView 的性能
我是编程新手。我有一个启用分页的 ScrollView ，其中包含许多页面(最多十个)，并且在每个页面上都有一个自定义按钮。每个自定义按钮都有一个自定义图像。我在 Interface Builder

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何为我的 tensorflow 模型提高此数据管道的性能