- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试比较两行 pixel
。
一个像素
被定义为一个包含4个float
值(RGBA)的struct
。
我没有使用 memcmp
的原因是因为我需要返回第一个不同像素的位置,而 memcmp
不会。
我的第一个实现使用 SSE
内在函数,比 memcmp
慢 ~30%:
inline int PixelMemCmp(const Pixel* a, const Pixel* b, int count)
{
for (int i = 0; i < count; i++)
{
__m128 x = _mm_load_ps((float*)(a + i));
__m128 y = _mm_load_ps((float*)(b + i));
__m128 cmp = _mm_cmpeq_ps(x, y);
if (_mm_movemask_ps(cmp) != 15) return i;
}
return -1;
}
然后我发现将值视为整数而不是 float 可以加快速度,现在只比 memcmp
慢 20%。
inline int PixelMemCmp(const Pixel* a, const Pixel* b, int count)
{
for (int i = 0; i < count; i++)
{
__m128i x = _mm_load_si128((__m128i*)(a + i));
__m128i y = _mm_load_si128((__m128i*)(b + i));
__m128i cmp = _mm_cmpeq_epi32(x, y);
if (_mm_movemask_epi8(cmp) != 0xffff) return i;
}
return -1;
}
从我读到的其他问题来看,memcmp
的 MS 实现也是使用 SSE
实现的。我的问题是 MS 实现还有哪些我没有的其他技巧?即使进行逐字节比较,它如何仍然更快?
对齐是一个问题吗?如果 pixel
包含 4 个 float ,是否已经在 16 字节边界上分配了一个像素数组?
我正在使用 /o2
和所有优化标志进行编译。
最佳答案
我已经用 SSE(和 MMX/3DNow!)编写了 strcmp/memcmp 优化,第一步是确保数组尽可能对齐——你可能会发现你必须做第一个和/或最后一个字节“一次一个”。
如果您可以在数据进入循环之前对齐数据 [如果您的代码执行分配],那就太理想了。
第二部分是展开循环,所以你不会得到那么多“如果循环没有结束,跳回到循环的开头”——假设循环很长。
您可能会发现在执行“我们现在离开”条件之前预加载输入的下一个数据也有帮助。
编辑:最后一段可能需要一个例子。此代码假定至少有两个展开循环:
__m128i x = _mm_load_si128((__m128i*)(a));
__m128i y = _mm_load_si128((__m128i*)(b));
for(int i = 0; i < count; i+=2)
{
__m128i cmp = _mm_cmpeq_epi32(x, y);
__m128i x1 = _mm_load_si128((__m128i*)(a + i + 1));
__m128i y1 = _mm_load_si128((__m128i*)(b + i + 1));
if (_mm_movemask_epi8(cmp) != 0xffff) return i;
cmp = _mm_cmpeq_epi32(x1, y1);
__m128i x = _mm_load_si128((__m128i*)(a + i + 2));
__m128i y = _mm_load_si128((__m128i*)(b + i + 2));
if (_mm_movemask_epi8(cmp) != 0xffff) return i + 1;
}
大致是这样的。
关于c++ - 为什么这比 memcmp 慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14796562/
template int custom_memcmp(const T* a, const T* b, std::size_t n); 这会比 C 的 memcmp 更快吗? 如果 sizeof(T)
如果我为 memcmp 的第一个和第二个参数传递相等的指针,我怀疑它可能只是返回 0 而不检查元素——因为如果传递相同的指针,则元素必须为零。在我看来,检查指针相等性并提前退出是很好的优化。 我检查了
是 if(strncmp(buf, buf2, 7) == 0) 做同样的事情 if(memcmp(buf, buf2, 7) == 0) buf 和 buf2 是 char* 数组或类似数组。 我打
我从 fasm(版本 1.71.51)代码调用 memcmp,并且得到了奇怪的结果。 看起来memcmp只比较奇数位置的字符。代码: format ELF64 section '.text' exec
我想知道 memcmp 函数必须返回什么。 我一直在 Internet 上搜索,通常 memcmp 定义如下所示: The memcmp() function returns an integer g
如果我发送 memcmp 两个指向整数的指针,那么它似乎将整数解释为字符。 例如: int a = 5; int b = 256; int res = memcmp(&a,&b,sizeof(int)
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
struct Flat { int a1; int a2; } // a hierarchical struct which containing a struct attribute str
我正在使用一个包含许多成员的大型结构,我想要一种简单的方法来快速查看是否有任何成员非零。我知道 memcmp() 不应该用于比较两个结构是否相等(如下所述: How do you compare st
我想以最快速有效的方式找出两个内存缓冲区(保存任意定义的值)在按位比较中是否相同。 我对 bool 值“相同”以外的任何东西都不感兴趣,我希望该方法尽快返回,即首先发现差异。 实现此目标的最佳方法是什
我在使用 memcmp 时遇到了一个小问题。我有两个数组(长度 = 3 字节),数据完全相同。 如果我尝试将它们与 memcmp 进行比较,它会失败吗?! if (memcmp(ucbuffer, u
在 C 中,我想检查给定的字符数组中的任意字母,并根据它的内容进行更改。例如,字符“a”或“A”将更改为“4”(表示 4 的字符)。这是我的编码练习:) 代码如下: #include #includ
我有两个相同大小的 unsigned char 数组和一个检查它们是否相等的 if 语句: #define BUFFER_SIZE 10000 unsigned char origCh
我有一个缓冲区,还有几个指向它的指针。我想根据指针指向的缓冲区中的字节对指针进行排序。 qsort() 和 STL::sort() 可以被赋予自定义比较函数。例如,如果缓冲区是零终止的,我可以使用 s
这个问题有点难以解释,因为代码片段是一个更大项目的一部分。我会尽我所能解释这个问题。 我有两个文件 FILE *f,*m; f=fopen("/home/machine/decoder
我刚好调试了一个令人难以置信的严重错误:在我自己的 PC(Windows 7 x64,MinGw)上,我的 C 程序在比较数组成员时使用 memcmp 成功地对数组进行了排序。 我的函数使用了冒泡排序
在 C++ 中,比较两个字大小结构(例如 32 位架构中的 4 字节大小)的最有效方法(内存和时序)是什么。假设没有垃圾填充位并且: struct A, B; 一方面,我可以使用 memcmp(&A,
下面是memcmp的微软CRT实现: int memcmp(const void* buf1, const void* buf2, size_t count
下面的简单程序对我来说是段错误: #include int main() { void* voidp = NULL; char zeroes[sizeof(void*)];
我已经使用 memcmp 函数比较了两个字符串文字。 #include #include int main() { char str1[] = "abcd"; char str2[] =
我是一名优秀的程序员,十分优秀!