javascript - 使用 Tensorflow.js 和 tf.Tensor 处理大数据的最佳方式是什么？

转载作者：搜寻专家更新时间：2023-10-31 23:19:20

24

4

问题

我正在使用 tf.Tensor 和 tf.concat() 来处理大型训练数据，而且我发现连续使用 tf.concat() 会变慢。将大数据从文件加载到 tf.Tensor 的最佳方法是什么？

背景

我认为这是在 Javascript 中按数组处理数据的常见方式。要实现这一目标，请执行以下粗略步骤。

从文件加载数据到数组的步骤

从文件中读取行
将行解析为 Javascript 的对象
通过Array.push()将该对象添加到数组
读完一行后，我们可以用for循环使用那个数组。

所以我想我可以像上面那样使用tf.concat()。

从文件加载数据到 tf.Tensor 的步骤

从文件中读取行
将行解析为 Javascript 的对象
将对象解析为 tf.Tensor
通过tf.concat()将张量添加到原始张量中
读完一行后，我们可以使用那个 tf.Tensor

一些代码

这里有一些代码可以测量 Array.push() 和 tf.concat() 的速度

import * as tf from "@tensorflow/tfjs"

let t = tf.tensor1d([1])
let addT = tf.tensor1d([2])

console.time()
for (let idx = 0; idx < 50000; idx++) {
    if (idx % 1000 == 0) {
        console.timeEnd()
        console.time()
        console.log(idx)
    }
    t = tf.tidy(() => t.concat(addT))
}


let arr = []
let addA = 1
console.time()
for (let idx = 0; idx < 50000; idx++) {
    if (idx % 1000 == 0) {
        console.timeEnd()
        console.time()
        console.log(idx)
    }
    arr.push(addA)
}

测量

我们可以在 Array.push() 上看到稳定的过程，但它在 tf.concat()

上变慢

对于 tf.concat()

default: 0.150ms
0
default: 68.725ms
1000
default: 62.922ms
2000
default: 23.199ms
3000
default: 21.093ms
4000
default: 27.808ms
5000
default: 39.689ms
6000
default: 34.798ms
7000
default: 45.502ms
8000
default: 94.526ms
9000
default: 51.996ms
10000
default: 76.529ms
11000
default: 83.662ms
12000
default: 45.730ms
13000
default: 89.119ms
14000
default: 49.171ms
15000
default: 48.555ms
16000
default: 55.686ms
17000
default: 54.857ms
18000
default: 54.801ms
19000
default: 55.312ms
20000
default: 65.760ms

对于 Array.push()

default: 0.009ms
0
default: 0.388ms
1000
default: 0.340ms
2000
default: 0.333ms
3000
default: 0.317ms
4000
default: 0.330ms
5000
default: 0.289ms
6000
default: 0.299ms
7000
default: 0.291ms
8000
default: 0.320ms
9000
default: 0.284ms
10000
default: 0.343ms
11000
default: 0.327ms
12000
default: 0.317ms
13000
default: 0.329ms
14000
default: 0.307ms
15000
default: 0.218ms
16000
default: 0.193ms
17000
default: 0.234ms
18000
default: 1.943ms
19000
default: 0.164ms
20000
default: 0.148ms

最佳答案

虽然 tf.concat 和 Array.push 函数看起来和行为相似，但有一个很大的区别:

tf.concat 从输入创建一个新张量
Array.push 将输入添加到第一个数组

例子

tf.concat

const a = tf.tensor1d([1, 2]);
const b = tf.tensor1d([3]);
const c = tf.concat([a, b]);

a.print(); // Result: Tensor [1, 2]
b.print(); // Result: Tensor [3]
c.print(); // Result: Tensor [1, 2, 3]

结果变量 c 是一个新的张量，而 a 和 b 没有改变。

Array.push

const a = [1,2];
a.push(3);

console.log(a); // Result: [1,2,3]

这里直接修改变量a

对运行时的影响

对于运行时速度，这意味着 tf.concat 在添加输入之前将所有张量值复制到新张量。显然，需要复制的数组越大，花费的时间就越多。与此相反，Array.push 不会创建数组的副本，因此无论数组有多大，运行时都或多或少相同。

请注意，这是“设计使然”的，因为张量是不可变的，因此对现有张量的每次操作都会创建一个新的张量。引自 docs :

Tensors are immutable, so all operations always return new Tensors and never modify input Tensors.

因此，如果您需要从输入数据创建一个大张量，建议您先从您的文件中读取所有数据并将其与“普通”JavaScript 函数合并，然后再从中创建一个张量。

处理内存太大的数据

如果您的数据集太大以至于由于内存限制需要分块处理，您有两个选择:

使用trainOnBatch功能
使用数据集生成器

选项 1:trainOnBatch

trainOnBatch函数允许训练一批数据，而不是使用完整的数据集。因此，您可以在训练代码之前将代码分成合理的批处理，这样就不必一次将所有数据合并在一起。

选项 2:数据集生成器

另一个答案已经涵盖了基础知识。这将允许您使用 JavaScript generator function准备数据。我建议使用生成器语法而不是迭代器工厂(在另一个答案中使用)，因为它是更现代的 JavaScript 语法。

示例(取自 docs ):

function* dataGenerator() {
  const numElements = 10;
  let index = 0;
  while (index < numElements) {
    const x = index;
    index++;
    yield x;
  }
}

const ds = tf.data.generator(dataGenerator);

然后您可以使用 fitDataset训练模型的函数。

关于javascript - 使用 Tensorflow.js 和 tf.Tensor 处理大数据的最佳方式是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55929960/

24

4

0

文章推荐： php - 如何通过访问修饰符过滤属性

文章推荐： php - Laravel - 仅针对某些网址的维护模式

文章推荐： javascript - 克隆元素时更改 JavaScript 中子元素的 ID

文章推荐： php - 使用 Twilio 接收短信并将其存储在数据库中

Tensorflow - 为什么 tf.nn 和 tf.layers/tf.losses/tf.contrib.layers 等中有这么多相似甚至重复的函数？
在 Tensorflow(从 v1.2.1 开始)中，似乎有(至少)两个并行 API 来构建计算图。 tf.nn 中有函数，如 conv2d、avg_pool、relu、dropout，tf.laye
python - tf.reduce_sum(lastconv,axis=2)/tf.reduce_sum(tf.cast(tf.greater(lastconv, 0), tf.float32), axis=2) 用于代替均值池？
我正在处理眼睛轨迹数据和卷积神经网络。我被要求使用 tf.reduce_max(lastconv, axis=2)代替 MaxPooling 层和 tf.reduce_sum(lastconv,axi
python - 什么时候应该使用 tf.train.BytesList、tf.train.FloatList 和 tf.train.Int64List 将数据存储在 tf.train.Feature 中？
TensorFlow 提供了 3 种不同的数据存储格式 tf.train.Feature .它们是: tf.train.BytesList tf.train.FloatList tf.train.In
python - tf.contrib.layer.fully_connected、tf.layers.dense、tf.contrib.slim.fully_connected、tf.keras.layers.Dense 之间的不一致
我正在尝试为上下文强盗问题 (https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part
python - 如何将 tf.layers 变量放入 tf.name_scope/tf.variable_scope 中？
我在使用 Tensorflow 时遇到问题: 以下代码为卷积 block 生成正确的图: def conv_layer(self, inputs, filter_size = 3, num_filte
python - TF 2.0 中的 tf.GradientTape 是否等同于 tf.gradients？
我正在将我的训练循环迁移到 Tensorflow 2.0 API .在急切执行模式下，tf.GradientTape替换 tf.gradients .问题是，它们是否具有相同的功能？具体来说: 在函数
python - tf.control_dependencies(tf.get_collection(tf.GraphKeys.UPDATE_OPS)) 在 tensorflow 中
tensorflow 中 tf.control_dependencies(tf.get_collection(tf.GraphKeys.UPDATE_OPS)) 的目的是什么？更多上下文:
tensorflow - tf.square、tf.math.square 和 tf.keras.backend.square 之间有什么区别？
我一直在努力学习 TensorFlow，我注意到不同的函数用于相同的目标。例如，为了平方变量，我看到了 tf.square()、tf.math.square() 和 tf.keras.backend.
tensorflow - tf.data 或 tf.keras.utils.Sequence。提高 tf.data 的效率？
我正在尝试使用自动编码器开发图像着色器。有 13000 张训练图像。如果我使用 tf.data，每个 epoch 大约需要 45 分钟，如果我使用 tf.utils.keras.Sequence 大约
logging - tensorflow log_softmax tf.nn.log(tf.nn.softmax(predict)) tf.nn.softmax_cross_entropy_with_logits
我尝试按照 tensorflow 教程实现 MNIST CNN 神经网络，并找到这些实现 softmax 交叉熵的方法给出了不同的结果: (1) 不好的结果 softmax = tf.nn.softm
python - `tf.reshape(a, [m, n])` 和 `tf.transpose(tf.reshape(a, [n, m]))` 之间的区别？
其实，我正在coursera上做deeplearning.ai的作业“Art Generation with Neural Style Transfer”。在函数 compute_layer_styl
python - 为什么 tf.cond() 将 tf.bool 识别为 python bool 而不是 tf.bool？
训练神经网络学习“异或” 我正在尝试使用“批量归一化”，我创建了一个批量归一化层函数“batch_norm1”。 import tensorflow as tf import nump
python - Tensorflow:在使用 tf.Keras 层或 tf.Estimator API 时，何时需要运行 tf.Session()？
我正在尝试协调来自 TF“图形和 session ”指南以及 TF“Keras”指南和 TF Estimators 指南的信息。现在在前者中它说 tf.Session 使计算图能够访问物理硬件以执行图
python - Tensorflow softmax_cross_entropy_with_logits 与 tf.reduce_mean(-tf.reduce_sum(y*tf.log(yhat), reduction_indices = 1))
我正在关注此处的多层感知器示例:https://github.com/aymericdamien/TensorFlow-Examples我对函数 tf.nn.softmax_cross_entropy
python - TensorFlow 2.0 : how to group graph using tf. 喀拉斯？ tf.name_scope/tf.variable_scope 不再使用了吗？
回到 TensorFlow = 2.0 中消失了。因此，像这样的解决方案...... with tf.variable_scope("foo"): with tf.variable_scope
python - [python -c "import tensorflow as tf;print(tf.reduce_sum(tf.random.normal([1000, 1000])))"] 是做什么的？
我按照官方网站中的步骤安装了tensorflow。但是，在该网站中，作为安装的最后一步，他们给出了一行代码来“验证安装”。但他们没有告诉这段代码会给出什么输出。该行是: python -c "imp
python - 为什么 tf.matmul(a,b, transpose_b=True) 有效，但 tf.matmul(a, tf.transpose(b)) 无效？
代码: x = tf.constant([1.,2.,3.], shape = (3,2,4)) y = tf.constant([1.,2.,3.], shape = (3,21,4)) tf.ma
python - TypeError : Only integers, slices (`:` ), ellipsis (`…` ), tf.newaxis (`None` ) 和标量 tf.int32/tf.int64 张量是有效的索引，得到 [1, 3]
我正在尝试从 Github 训练一个 3D 分割网络.我的模型是用 Keras (Python) 实现的，这是一个典型的 U-Net 模型。模型，总结如下， Model: "functional_3"
tensorflow - 在 TF 操作中评估 TF 模型会引发错误
我正在使用 TensorFlow 2。我正在尝试优化一个函数，该函数使用经过训练的 tensorflow 模型(毒药)的损失。 @tf.function def totalloss(x): x
python - tf.zeros() 是否返回 tf.get_variable()？
试图了解 keras 优化器中的 SGD 优化代码 (source code)。在 get_updates 模块中，我们有: # momentum shapes = [K.int_shape(p) f

首页

博学

6Ren·AI

商城