python - 纯 Tensorflow 中的 Gram-Schmidt 正交化 : performance for iterative solution is much slower than numpy-6ren

python - 纯 Tensorflow 中的 Gram-Schmidt 正交化 : performance for iterative solution is much slower than numpy

转载作者：太空宇宙更新时间：2023-11-03 14:18:12

我想做 Gram-Schmidt 正交化来修复大矩阵，这些矩阵开始稍微偏离纯 Tensorflow 中的正交性(在更大的计算中在图上进行，而不破坏它)。我见过的解决方案like the one there被“外部”使用(在内部执行多个 sess.run)。

所以我自己写了一个简单但我认为效率很低的实现:

def tf_gram_schmidt(vectors):
    # add batch dimension for matmul
    basis = tf.expand_dims(vectors[0,:]/tf.norm(vectors[0,:]),0)
    for i in range(1,vectors.get_shape()[0].value):
        v = vectors[i,:]
        # add batch dimension for matmul
        v = tf.expand_dims(v,0) 
        w = v - tf.matmul(tf.matmul(v, tf.transpose(basis)), basis)
         # I assume that my matrix is close to orthogonal
        basis = tf.concat([basis, w/tf.norm(w)],axis=0)
    return basis

但是当我将它与相同的迭代外部代码进行比较时，它慢了 3 倍(在 GPU 上!!!)(尽管精度更高一点):

how much source differs from orthogonal matrix:
44.7176
tensorflow version:
0.034667
Time elapsed: 23365.9820557ms
numpy version with tensorflow and variable re-assign to the result of numpy code:
0.057589
Time elapsed: 8540.5600071ms

(UPD 4:我在示例中犯了一个小错误，但它根本没有改变时间，因为 ort_discrepancy() 是一个轻量级函数):

最小示例:

import tensorflow as tf

import numpy as np

import time

# found this code somewhere on stackoverflow
def np_gram_schmidt(vectors):
    basis = []
    for v in vectors:
        w = v - np.sum( np.dot(v,b)*b  for b in basis )
        if (w > 1e-10).any():  
            basis.append(w/np.linalg.norm(w))
        else:
            basis.append(np.zeros(w.shape))
    return np.array(basis)



def tf_gram_schmidt(vectors):
    # add batch dimension for matmul
    basis = tf.expand_dims(vectors[0,:]/tf.norm(vectors[0,:]),0)
    for i in range(1,vectors.get_shape()[0].value):
        v = vectors[i,:]
        # add batch dimension for matmul
        v = tf.expand_dims(v,0) 
        w = v - tf.matmul(tf.matmul(v, tf.transpose(basis)), basis)
         # I assume that my matrix is close to orthogonal
        basis = tf.concat([basis, w/tf.norm(w)],axis=0)
    return basis





# how much matrix differs from orthogonal
# computes ||W*W^T - I||2
def ort_discrepancy(matrix):    
    wwt = tf.matmul(matrix, matrix, transpose_a=True)
    rows = tf.shape(wwt)[0]
    cols = tf.shape(wwt)[1]    
    return tf.norm((wwt - tf.eye(rows,cols)),ord='euclidean') 


np.random.seed(0)
# white noise matrix
np_nearly_orthogonal = np.random.normal(size=(2000,2000)) 
# centered rows
np_nearly_orthogonal = np.array([row/np.linalg.norm(row) for row in np_nearly_orthogonal]) 


tf_nearly_orthogonal = tf.Variable(np_nearly_orthogonal,dtype=tf.float32)


init = tf.global_variables_initializer()



with tf.Session() as sess:
    sess.run(init)

    print("how much source differs from orthogonal matrix:")
    print(ort_discrepancy(tf_nearly_orthogonal).eval())

    print("tensorflow version:")
    start = time.time()

    print(ort_discrepancy(tf_gram_schmidt(tf_nearly_orthogonal)).eval())

    end = time.time()
    print("Time elapsed: %sms"%(1000*(end-start)))

    print("numpy version with tensorflow and variable re-assign to the result of numpy code:")
    start = time.time()

    tf_nearly_orthogonal = tf.Variable(np_gram_schmidt(tf_nearly_orthogonal.eval()),dtype=tf.float32)
    sess.run(tf.variables_initializer([tf_nearly_orthogonal]))



    # check that variable was updated
    print(ort_discrepancy(tf_nearly_orthogonal).eval())
    end = time.time()
    print("Time elapsed: %sms"%(1000*(end-start)))

有什么办法可以加快速度吗？我不知道如何为 G-S 执行此操作，这需要附加到基础(因此没有 tf.map_fn 并行化可以提供帮助)。

UPD:我通过优化 tf.matmul 实现了 2 倍的差异:

def tf_gram_schmidt(vectors):
    # add batch dimension for matmul
    basis = tf.expand_dims(vectors[0,:]/tf.norm(vectors[0,:]),0)
    for i in range(1,vectors.get_shape()[0].value):
        v = vectors[i,:]
        # add batch dimension for matmul
        v = tf.expand_dims(v,0) 
        w = v - tf.matmul(tf.matmul(v, basis, transpose_b=True), basis)
         # I assume that my matrix is close to orthogonal
        basis = tf.concat([basis, w/tf.norm(w)],axis=0)
    return basis





how much source differs from orthogonal matrix:
44.7176
tensorflow version:
0.0335421
Time elapsed: 17004.458189ms
numpy version with tensorflow and variable re-assign to the result of numpy code:
0.057589
Time elapsed: 8082.20791817ms

编辑2:

只是为了好玩，尝试完全模仿 numpy 解决方案，并得到了非常长的工作代码:

def tf_gram_schmidt(vectors):
    # add batch dimension for matmul
    basis = tf.expand_dims(vectors[0,:]/tf.norm(vectors[0,:]),0)
    for i in range(1,vectors.get_shape()[0].value):

        v = vectors[i,:]        
        # like in numpy example
        multiplied = tf.reduce_sum(tf.map_fn(lambda b: tf.scalar_mul(tf.tensordot(v,b,axes=[[0],[0]]),b), basis), axis=0)
        w = v - multiplied    



        ## add batch dimension for matmul
        ##v = tf.expand_dims(v,0) 
        ##w = v - tf.matmul(tf.matmul(v, basis, transpose_b=True), basis) 

        # I assume that my matrix is close to orthogonal
        basis = tf.concat([basis, tf.expand_dims(w/tf.norm(w),0)],axis=0)
    return basis

(这似乎也溢出了 GPU 内存):

how much source differs from orthogonal matrix:
44.7176
tensorflow version:
2018-01-05 22:12:09.854505: I tensorflow/core/common_runtime/gpu/pool_allocator.cc:247] PoolAllocator: After 14005 get requests, put_count=5105 evicted_count=1000 eviction_rate=0.195886 and unsatisfied allocation rate=0.714031
2018-01-05 22:12:09.854530: I tensorflow/core/common_runtime/gpu/pool_allocator.cc:259] Raising pool_size_limit_ from 100 to 110
2018-01-05 22:12:13.090296: I tensorflow/core/common_runtime/gpu/pool_allocator.cc:247] PoolAllocator: After 308520 get requests, put_count=314261 evicted_count=6000 eviction_rate=0.0190924 and unsatisfied allocation rate=0.00088487
2018-01-05 22:12:22.270822: I tensorflow/core/common_runtime/gpu/pool_allocator.cc:247] PoolAllocator: After 1485113 get requests, put_count=1500399 evicted_count=16000 eviction_rate=0.0106638 and unsatisfied allocation rate=0.000490198
2018-01-05 22:12:37.833056: I tensorflow/core/common_runtime/gpu/pool_allocator.cc:247] PoolAllocator: After 3484575 get requests, put_count=3509407 evicted_count=26000 eviction_rate=0.00740866 and unsatisfied allocation rate=0.000339209
2018-01-05 22:12:59.995184: I tensorflow/core/common_runtime/gpu/pool_allocator.cc:247] PoolAllocator: After 6315546 get requests, put_count=6349923 evicted_count=36000 eviction_rate=0.00566936 and unsatisfied allocation rate=0.000259202
0.0290728
Time elapsed: 136108.97398ms
numpy version with tensorflow and variable re-assign to the result of numpy code:
0.057589
Time elapsed: 10618.8428402ms

UPD3:我的 GPU 是 GTX1050，它通常比我的 CPU 加速 5-7 倍。所以结果对我来说很奇怪。

UPD5:好的，我发现这段代码几乎没有使用 GPU，而使用手动编写的反向传播来训练神经网络，其中使用了大量 tf.matmul 和其他矩阵算术，充分利用它。为什么会这样？

<小时/>

更新6:

根据给定的建议，我以新的方式测量了时间:

# Akshay's suggestion to measure performance correclty
orthogonalized = ort_discrepancy(tf_gram_schmidt(tf_nearly_orthogonal))

with tf.Session() as sess:
    sess.run(init)

    print("how much source differs from orthogonal matrix:")
    print(ort_discrepancy(tf_nearly_orthogonal).eval())

    print("tensorflow version:")
    start = time.time()

    tf_result = sess.run(orthogonalized)

    end = time.time()

    print(tf_result)

    print("Time elapsed: %sms"%(1000*(end-start)))

    print("numpy version with tensorflow and variable re-assign to the result of numpy code:")
    start = time.time()

    tf_nearly_orthogonal = tf.Variable(np_gram_schmidt(tf_nearly_orthogonal.eval()),dtype=tf.float32)
    sess.run(tf.variables_initializer([tf_nearly_orthogonal]))



    # check that variable was updated
    print(ort_discrepancy(tf_nearly_orthogonal).eval())

    end = time.time()
    print("Time elapsed: %sms"%(1000*(end-start)))

现在我可以看到 4 倍的加速:

how much source differs from orthogonal matrix:
44.7176
tensorflow version:
0.018951
Time elapsed: 2594.85888481ms
numpy version with tensorflow and variable re-assign to the result of numpy code:
0.057589
Time elapsed: 8851.86600685ms

最佳答案

TensorFlow 看起来很慢，因为您的基准测试正在测量构建图的时间以及执行图所需的时间； TensorFlow 和 NumPy 之间更公平的比较会将图构建排除在基准测试之外。特别是，您的基准测试可能应该如下所示:

print("tensorflow version:")
# This line constructs the graph but does not execute it.
orthogonalized = ort_discrepancy(tf_gram_schmidt(tf_nearly_orthogonal))

start = time.time()
tf_result = sess.run(orthogonalized)
end = time.time()

关于python - 纯 Tensorflow 中的 Gram-Schmidt 正交化 : performance for iterative solution is much slower than numpy，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48119473/

文章推荐：其他人拥有的停放子域上的 SSL 证书？

文章推荐： web-services - WebService 端点 url 具有 https 时的 SSL 异常

rust - 预期的std::iter::Iterator，但找到了std::iter::Iterator
我正在尝试表达以下内容: 给定一个矩阵和两个索引增量，返回矩阵中所有数字的四倍体:沿行，列或对角线的四倍体。 use std::iter::Iterator; use std::iter::Peeka
iterator - 使用 Iterable 和 Iterator 角色实现可迭代类
假设我们有以下类组成角色 Iterable : class Word-Char does Iterable { has @.words; method !pairize($item)
java - 使用来自不同 Iterator/Iterable 的值创建 Iterable
我编写了一个 ADT 排序二叉树，其功能如下: public Iterator getInorderIterator(){ return new InorderIterator(); } 有效
python - "yield from iterable"与 "return iter(iterable)"
在包装(内部)迭代器时，通常必须将 __iter__ 方法重新路由到底层可迭代对象。考虑以下示例: class FancyNewClass(collections.Iterable): def
ios - NSSet Iteration 比 NSMutableArray Iteration 消耗更多时间，NSArray Iteration 比 NSMutableArray Iteration 消耗更多时间
尽管如此，我遍历了以下 NSSet , NSMutableArray , NSFastEnumeration文档，我找不到下面提到的场景的令人满意的来源: 此处，NSMutableArray、NSAr
python - collections.Iterable vs typing.Iterable 在类型注释和检查 Iterable
我发现在 Python 中 collections.Iterable 和 typing.Iterable 都可以用于类型注释和检查对象是否可迭代，即 >isinstance(obj, collecti
rust - 将 Iterator<(A,B)> 拆分为 Iterator 和 Iterator
我想拆分实现 Iterator 的对象的输出分为两个实现 Iterator 的对象和 Iterator .由于其中一个输出的迭代次数可能比另一个多，因此我需要缓冲 Iterator 的输出。 (因为我

rust - 无法将 core::slice::Iter 解析为 core::iter::Iterator？
我正在尝试用 Rust 编写一个简单的迭代器: #[derive(Debug)] pub struct StackVec { storage: &'a mut [T], len: us

swift - : Separator. Iterator.Element == Self.Iterator.Element.Iterator.Element 是什么意思
什么意思: Separator.Iterator.Element == Self.Iterator.Element.Iterator.Element 在this (Swift 标准库)swift 实例

java - Iterable#iterator() 返回一个新的迭代器还是一个现有的迭代器？
调用 anIterable.iterator() 会返回新的迭代器还是现有的迭代器？它依赖于 Iterable 的实现吗？更具体地说，以下代码是否按预期工作(即内部循环将从头开始迭代)？ for (

iterator - Iterator collect 的类型问题
我正在尝试转换 &str 的矢量对成一个 HashMap使用以下代码片段: use std::collections::HashMap; fn main() { let pairs = vec!(

iterator - 是否有类似 Iterator 的特征返回在下一次访问之前必须超出范围的引用？
这将使安全地迭代同一元素两次成为可能，或者为在项目类型中迭代的全局事物保持某种状态。类似于: trait IterShort where Self: Borrow, { type I

iterator - 为什么 Iterator::all 需要迭代器是可变的？
我在 String 的字符上使用迭代器: pub fn is_yelling(message: &str) -> bool { let letters = message.chars().fi

iterator - 是否有类似 Iterator 的特征返回在下一次访问之前必须超出范围的引用？
这将使安全地迭代同一元素两次成为可能，或者为在项目类型中迭代的全局事物保持某种状态。类似于: trait IterShort where Self: Borrow, { type I

iterator - 为什么我们不实现 Iterator 中的所有函数来实现一个迭代器呢？
要在 Rust 中实现迭代器，我们只需要实现 next 方法，如 in the documentation 所解释的那样.但是，Iterator 特征 has many more methods .

iterator - 实现 Iterator 时的生命周期问题
我正在为多个结构实现 Iterator 特性并遇到了一些问题。为什么为 Rows 实现 Iterator 显示错误？这是一个链接:link to playground 基本上为什么这不起作用？ str

iterator - 遍历集合。 Iterator 被删除后立即删除它
我将集合转储到磁盘上。当请求时，应该检索这些集合(没问题)和 iterator应该为它构建返回对检索到的值的引用。 iterator之后被丢弃了，我不再需要收藏了。我也希望它被删除。到目前为止我尝试

iterator - 如何为特征实现 "default iterator"？
我正在尝试为实现特征的结构实现默认迭代器。我的特征称为 DataRow，代表一行表格单元格，如下所示: pub trait DataRow { // Gets a cell by index

iterator - 是否有提供 `iter()` 的特征？
Rust 中是否有提供 iter() 的 Trait方法？我只找到了特征 IntoIterator ，供应into_iter() . 这里要明确一点:我不想要 Iterator特性，提供 next()

iterator - 如何向 Iterator 添加新方法？
我想在迭代器上定义一个 .unique() 方法，使我能够在没有重复的情况下进行迭代。 use std::collections::HashSet; struct UniqueState {

太空宇宙

个人简介
我是一名优秀的程序员,十分优秀！

作者热门文章

android - 多次调用 OnPrimaryClipChangedListener

android - 无法更新 RecyclerView 中的 TextView 字段

android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0

android - 使用 AppCompat 时，我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色

滴滴打车优惠券免费领取

全站热门文章

.NET中的线程安全数据结构

夜莺v8第一个版本来了，开始做有意思的功能了

.NET9增强OpenAPI规范，不再内置swagger

推荐一个C#轻量级矢量图形库

用于航空发动机故障诊断的深度分层排序网络

跟着8.6kStar的开源数据库，搞RAG！

manim边学边做--同伦变换

深入理解Servlet：从基础概念到高级特性与实战应用

VisualStudio-API调试与测试工具之HTTP文件

经典区间线段树详解：从原理到实践

首页

博学

6Ren·AI

商城

python - 纯 Tensorflow 中的 Gram-Schmidt 正交化 : performance for iterative solution is much slower than numpy