gpt4 book ai didi

视频压缩 : What is discrete cosine transform?

转载 作者:行者123 更新时间:2023-11-28 21:38:53 24 4
gpt4 key购买 nike

我实现了一种称为离散余弦变换的图像/视频变换技术。该技术用于 MPEG 视频编码。我的算法基于以下 URL 中提出的想法:

http://vsr.informatik.tu-chemnitz.de/~jan/MPEG/HTML/mpeg_tech.html

现在我可以转换黑白图像的 8x8 部分,例如:

0140  0124  0124  0132  0130  0139  0102  0088  0140  0123  0126  0132  0134  0134  0088  0117  0143  0126  0126  0133  0134  0138  0081  0082  0148  0126  0128  0136  0137  0134  0079  0130  0147  0128  0126  0137  0138  0145  0132  0144  0147  0131  0123  0138  0137  0140  0145  0137  0142  0135  0122  0137  0140  0138  0143  0112  0140  0138  0125  0137  0140  0140  0148  0143 

在这张图片中,所有重要信息都在右上角。转换后的 block 看起来像这样:

1041  0039  -023  0044  0027  0000  0021  -019  -050  0044  -029  0000  0009  -014  0032  -010  0000  0000  0000  0000  -018  0010  -017  0000  0014  -019  0010  0000  0000  0016  -012  0000  0010  -010  0000  0000  0000  0000  0000  0000  -016  0021  -014  0010  0000  0000  0000  0000  0000  0000  0000  0000  0000  0000  0000  0000  0000  0000  -010  0013  -014  0010  0000  0000  

现在,我需要知道如何利用这种转变?我想检测同一图像(或另一图像)中代表良好匹配的其他 8x8 block 。

此外,这种转变给我带来了什么?为什么存储在转换后图像右上角的信息很重要?

最佳答案

DCT 的结果是将原始源转换为频域。左上角的条目存储“振幅”、“基本”频率和沿水平轴和垂直轴的频率增加。 DCT 的结果通常是更常见的较低频率(左上象限)的振幅集合和较高频率的较少条目。正如 lassevk 所提到的,通常将这些更高的频率归零,因为它们通常构成源的非常小的部分。但是,这确实会导致信息丢失。为了完成压缩,通常对 DCT 源使用无损压缩。这就是压缩的用武之地,因为所有这些零运行都被压缩到几乎没有。

使用 DCT 查找相似区域的一个可能优势是您可以对低频值(左上角)进行第一次匹配。这减少了您需要匹配的值的数量。如果找到低频值的匹配项,则可以增加比较高频值。

希望对你有帮助

关于视频压缩 : What is discrete cosine transform?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4582/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com