python - 在具有相互依赖值的矩阵中向量化计算-6ren

python - 在具有相互依赖值的矩阵中向量化计算

转载作者：太空狗更新时间：2023-10-30 00:47:20

我在多个时间分辨率下跟踪多个离散时间序列，得到一个 SxRxB 矩阵，其中 S 是时间序列的数量，R 是不同分辨率的数量，B 是缓冲区，即每个序列有多少个值记得。每个系列都是离散的，并使用有限范围的自然数来表示其值。我在这里将这些称为“符号”。

对于每个系列，我想计算在所有测量中，任何先前测量的符号直接在任何当前测量的符号之前的频率。我已经使用 for 循环解决了这个问题，如下所示，但出于显而易见的原因，我想对其进行矢量化。

我不确定我构建数据的方式是否有效，所以我愿意在那里征求建议。我认为尤其是比率矩阵可以以不同的方式完成。

提前致谢!

def supports_loop(data, num_series, resolutions, buffer_size, vocab_size):
    # For small test matrices we can calculate the complete matrix without problems
    indices = []
    indices.append(xrange(num_series))
    indices.append(xrange(vocab_size))
    indices.append(xrange(num_series))
    indices.append(xrange(vocab_size))
    indices.append(xrange(resolutions))

    # This is huge! :/
    # dimensions:
    #   series and value for which we calculate,
    #   series and value which precedes that measurement,
    #   resolution
    ratios = np.full((num_series, vocab_size, num_series, vocab_size, resolutions), 0.0)

    for idx in itertools.product(*indices):
        s0, v0 = idx[0],idx[1]  # the series and symbol for which we calculate
        s1, v1 = idx[2],idx[3]  # the series and symbol which should precede the we're calculating for
        res = idx[4]

        # Find the positions where s0==v0
        found0 = np.where(data[s0, res, :] == v0)[0]
        if found0.size == 0:
            continue
        #print('found {}={} at {}'.format(s0, v0, found0))

        # Check how often s1==v1 right before s0==v0
        candidates = (s1, res, (found0 - 1 + buffer_size) % buffer_size)
        found01 = np.count_nonzero(data[candidates] == v1)
        if found01 == 0:
            continue

        print('found {}={} following {}={} at {}'.format(s0, v0, s1, v1, found01))
        # total01 = number of positions where either s0 or s1 is defined (i.e. >=0)
        total01 = len(np.argwhere((data[s0, res, :] >= 0) & (data[s1, res, :] >= 0)))
        ratio = (float(found01) / total01) if total01 > 0 else 0.0
        ratios[idx] = ratio

    return ratios


def stackoverflow_example(fnc):
    data = np.array([
        [[0, 0, 1],  # series 0, resolution 0
         [1, 3, 2]], # series 0, resolution 1

        [[2, 1, 2],  # series 1, resolution 0
         [3, 3, 3]], # series 1, resoltuion 1
    ])

    num_series = data.shape[0]
    resolutions = data.shape[1]
    buffer_size = data.shape[2]
    vocab_size = np.max(data)+1

    ratios = fnc(data, num_series, resolutions, buffer_size, vocab_size)
    coordinates = np.argwhere(ratios > 0.0)
    nz_values = ratios[ratios > 0.0]
    print(np.hstack((coordinates, nz_values[:,None])))
    print('0/0 precedes 0/0 in 1 out of 3 cases: {}'.format(np.isclose(ratios[0,0,0,0,0], 1.0/3.0)))
    print('1/2 precedes 0/0 in 2 out of 3 cases: {}'.format(np.isclose(ratios[0,0,1,2,0], 2.0/3.0)))

预期输出(21 对，5 列坐标，后跟找到的计数):

[[0 0 0 0 0 1]
 [0 0 0 1 0 1]
 [0 0 1 2 0 2]
 [0 1 0 0 0 1]
 [0 1 0 2 1 1]
 [0 1 1 1 0 1]
 [0 1 1 3 1 1]
 [0 2 0 3 1 1]
 [0 2 1 3 1 1]
 [0 3 0 1 1 1]
 [0 3 1 3 1 1]
 [1 1 0 0 0 1]
 [1 1 1 2 0 1]
 [1 2 0 0 0 1]
 [1 2 0 1 0 1]
 [1 2 1 1 0 1]
 [1 2 1 2 0 1]
 [1 3 0 1 1 1]
 [1 3 0 2 1 1]
 [1 3 0 3 1 1]
 [1 3 1 3 1 3]]

在上面的例子中，在三分之二的情况下，系列 0 中的 0 跟在系列 1 中的 2 之后(因为缓冲区是循环的)，所以 [0, 0, 1, 2, 0] 的比率将是 ~ 0.6666。同样是系列 0，在三分之一的情况下，值 0 会跟随其自身，因此 [0, 0, 0, 0, 0] 处的比率将为 ~0.3333。还有一些其他的 >0.0。

我正在两个数据集上测试每个答案:一个很小的数据集(如上所示)和一个更真实的数据集(100 个系列、5 种分辨率、每个系列 10 个值、50 个符号)。

结果

Answer        Time (tiny)     Time (huge)     All pairs found (tiny=21)
-----------------------------------------------------------------------
Baseline      ~1ms            ~675s (!)       Yes
Saedeas       ~0.13ms         ~1.4ms          No (!)
Saedeas2      ~0.20ms         ~4.0ms          Yes, +cross resolutions
Elliot_1      ~0.70ms         ~100s (!)       Yes
Elliot_2      ~1ms            ~21s (!)        Yes
Kuppern_1     ~0.39ms         ~2.4s (!)       Yes
Kuppern_2     ~0.18ms         ~28ms           Yes
Kuppern_3     ~0.19ms         ~24ms           Yes
David         ~0.21ms         ~27ms           Yes

Saedeas 第二种方法是明显的赢家!非常感谢你们所有人:)

最佳答案

首先，您没有显式嵌套 for 循环是在给自己造成一些伤害。你最终重复了很多努力，但在内存方面没有节省任何东西。当循环嵌套时，您可以将一些计算从一个级别移动到另一个级别，并找出哪些内部循环可以被矢量化。

def supports_5_loop(data, num_series, resolutions, buffer_size, vocab_size):
    ratios = np.full((num_series, vocab_size, num_series, vocab_size, resolutions), 0.0)
    for res in xrange(resolutions):
        for s0 in xrange(num_series):
            # Find the positions where s0==v0
            for v0 in np.unique(data[s0, res]):
                # only need to find indices once for each series and value
                found0 = np.where(data[s0, res, :] == v0)[0]
                for s1 in xrange(num_series):
                    # Check how often s1==v1 right before s0==v0
                    candidates = (s1, res, (found0 - 1 + buffer_size) % buffer_size)
                    total01 = np.logical_or(data[s0, res, :] >= 0, data[s1, res, :] >= 0).sum()
                    # can skip inner loops if there are no candidates
                    if total01 == 0:
                        continue
                    for v1 in xrange(vocab_size):
                        found01 = np.count_nonzero(data[candidates] == v1)
                        if found01 == 0:
                            continue

                        ratio = (float(found01) / total01)
                        ratios[(s0, v0, s1, v1, res)] = ratio

    return ratios

您会在计时中看到大部分速度提升来自于不重复的努力。

创建嵌套结构后，您可以开始查看矢量化和其他优化。

def supports_4_loop(data, num_series, resolutions, buffer_size, vocab_size):
    # For small test matrices we can calculate the complete matrix without problems

    # This is huge! :/
    # dimensions:
    #   series and value for which we calculate,
    #   series and value which precedes that measurement,
    #   resolution
    ratios = np.full((num_series, vocab_size, num_series, vocab_size, resolutions), 0.0)

    for res in xrange(resolutions):
        for s0 in xrange(num_series):
            # find the counts where either s0 or s1 are present
            total01 = np.logical_or(data[s0, res] >= 0,
                                    data[:, res] >= 0).sum(axis=1)
            s1s = np.where(total01)[0]
            # Find the positions where s0==v0
            v0s, counts = np.unique(data[s0, res], return_counts=True)
            # sorting before searching will show gains as the datasets
            # get larger
            indarr = np.argsort(data[s0, res])
            i0 = 0
            for v0, count in itertools.izip(v0s, counts):
                found0 = indarr[i0:i0+count]
                i0 += count
                for s1 in s1s:
                    candidates = data[(s1, res, (found0 - 1) % buffer_size)]
                    # can replace the innermost loop with numpy functions
                    v1s, counts = np.unique(candidates, return_counts=True)
                    ratios[s0, v0, s1, v1s, res] = counts / total01[s1]

    return ratios

不幸的是，我只能对最内层的循环进行真正的矢量化，而这只能额外获得 10% 的加速。在最内层循环之外，您无法保证所有向量的大小都相同，因此您无法构建数组。

In [121]: (np.all(supports_loop(data, num_series, resolutions, buffer_size, vocab_size) == supports_5_loop(data, num_series, resolutions, buffer_size, vocab_size)))
Out[121]: True

In [122]: (np.all(supports_loop(data, num_series, resolutions, buffer_size, vocab_size) == supports_4_loop(data, num_series, resolutions, buffer_size, vocab_size)))
Out[122]: True
In [123]: %timeit(supports_loop(data, num_series, resolutions, buffer_size, vocab_size))
2.29 ms ± 73.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In [124]: %timeit(supports_5_loop(data, num_series, resolutions, buffer_size, vocab_size))
949 µs ± 5.37 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

In [125]: %timeit(supports_4_loop(data, num_series, resolutions, buffer_size, vocab_size))
843 µs ± 3.21 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

关于python - 在具有相互依赖值的矩阵中向量化计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51194504/

文章推荐： c# - 从 C# 中的打开文件对话框中排除文件扩展名

文章推荐： c# - 使用 Crystal Reports 打印条形码

文章推荐： python - static_rnn 和 dynamic_rnn 有什么区别？

tensorflow 量化
我想使用Tensorflow的transform_graph工具优化图形。我尝试优化 MultiNet 中的图表(以及其他具有类似编码器-解码器架构的)。然而，优化后的图在使用 quantize_we
c# - 量化(减少图像的颜色)
我试图在 C# 中将图像量化为 10 种颜色，但在绘制量化图像时遇到问题，我已经制作了映射表并且它是正确的，我已经制作了原始图像的副本并且正在更改基于映射表的像素颜色，我使用下面的代码: bm = n
ios - UIImage-更改颜色深度-量化
我需要降低UIImage的颜色深度，但是我不知道该怎么做。结果应与在Photoshop中应用索引颜色相同。我的目标是要具有较低的色深(32色或更低)。也许这是我的错，但我没有找到解决方法。令人惊讶的
python - 量化 numpy 向量的快速方法
我有大量的 numpy 向量，每个形状 (3,) 都有 8 位整数值: vec = np.random.randint(2**8, size=3) 我想通过一些已知的缩减因子将这些向量量化到更小的空间
javascript - 如何播放绝对最小或*量化*滞后的声音？
我正在用 jQuery 编写一个心理学应用程序。我的项目的一部分需要测量用户对声音的 react 时间(用户按下一个键)。因此，我需要在调用(&时间戳)声音文件和实际开始播放之间的延迟尽可能小地播放声
python - 量化 Keras 神经网络模型
最近，我开始使用 Tensorflow + Keras 创建神经网络，我想尝试 Tensorflow 中提供的量化功能。到目前为止，使用 TF 教程中的示例进行试验效果很好，我有这个基本的工作示例(来
python - Tensorflow 每 channel 量化
使用当前的 Tensorflow quantization ops ，我将如何在推理过程中模拟每 channel 量化？这paper将每层量化定义为 We can specify a single q
python - Windows 上的 Tensorflow 量化
我已经卡住了我的模型并获得了 .pb 文件。然后我在 Linux 上使用 tocoConverter 量化我的模型，因为 Windows 不支持它。我有 quantized_model.tflite。
git - 量化 git diff 中的变化量？
我将 git 用于一个稍微不寻常的目的——它在我写小说时存储我的文本。 (我知道，我知道......令人讨厌。) 我正在尝试跟踪生产力，并想衡量后续提交之间的差异程度。作家代表“作品”的是“文字”，至
json - Topojson:量化 VS 简化
quantization有什么区别和 simplification ? 量化是另一种简化方式吗？在某些情况下使用量化更好吗？或者我应该同时使用两者？最佳答案几何体的总大小由两个因素控制:点数和
扎克伯格说，Llama3-8B还是太大了，量化、剪枝、蒸馏准备上！
扎克伯格说，Llama3-8B还是太大了，不适合放到手机中，有什么办法？量化、剪枝、蒸馏，如果你经常关注大语言模型，一定会看到这几个词，单看这几个字，我们很难理解它们都干了些什么，但
html - 量化
相对于
的语义值
我正在将一些我无法控制的 XML 转换为 XHTML。 XML 模式定义了一个段落标记和和用于列表。我经常在这个 XML 中找到嵌套在段落中的列表。因此，直接转换会导致 s 嵌套在中s，
machine-learning - 对于更深层次的 CNN 层学习更复杂的特征，是否有理论解释/量化？
我看到过这样的说法:CNN 的更深层次可以学习识别更复杂的特征。这通常附带一张早期过滤器识别直线/简单曲线的图片，以及后期过滤器识别更复杂图案的图片。它具有直观意义:您距离数据越远，您对数据的理解就越
c++ - 树莓派上的 tensorflow lite 量化 ssd 对象检测
在使用 C++ 的带有 tensorflow lite 的树莓派上，对象检测无法正常工作。我的代码编译并运行，但输出似乎从未得到正确填充。我是否会遗漏任何依赖项或错误地访问结果？我遵循了以下教程:
ios - 如何在 Corona SDK 游戏应用程序中测量/量化 "sluggishness"？
如何衡量/量化 Corona SDK 游戏应用中的“迟缓”？我在我构建的基于 Corona SDK 的物理游戏(使用 Box2D)上寻找旧手机(例如 iPhone 4、Samsung GT-I900
python - tensorflow 量化: Array output does not have MinMax information
我正在尝试创建一个 Tensorflow 量化模型，以便使用 Coral USB 加速器进行推理。这是我的问题的一个最小的独立示例: import sys import tensorflow as t
r - (R，量化): Hypothesis testing a large range of quantiles
我有一个分位数回归模型，其中包含 1 个回归变量和 1 个回归变量。我想假设检验回归量在每个分位数上都相等。我想到的一种方法是在 {0.01,0.02,....,0.99} 上测试所有 tau。但是，
java - 如何在 PGM 图像上使用 KMeans 实现 vector 量化
要求做，在 PGM 文件上使用 KMeans 进行 vector 量化(或图像压缩) 图像是 PMG 文件，其中 b = block 大小，k = 次数，t = 迭代，-g = 初始质心图像是这样的

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 在具有相互依赖值的矩阵中向量化计算

结果