- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
strlen
是一个相当简单的函数,显然它的计算复杂度为 O(n)。但是,我看到了一些一次对多个字符进行操作的方法。参见示例 5 here或者这种方法 here .这些工作的基本方法是将 char const*
缓冲区重新解释转换为 uint32_t const*
缓冲区,然后一次检查四个字节。
就个人而言,我的直觉 react 是这是一个等待发生的段错误,因为我可能会在有效内存之外取消引用最多三个字节。然而,这个解决方案似乎一直存在,我觉得奇怪的是,如此明显损坏的东西经受住了时间的考验。
我认为这包括 UB 有两个原因:
(请注意,不存在别名问题;有人可能认为 uint32_t
被别名为不兼容的类型,并且代码在 strlen
之后(例如可能更改字符串的代码)可能会乱序运行到 strlen
,但事实证明 char
是严格别名的显式异常(exception) ).
但是,在实践中失败的可能性有多大?至少,我认为在字符串文字数据部分之后需要 3
字节填充,malloc 需要 4
字节或更大对齐(实际上大多数系统都是这种情况), malloc
需要分配3
额外的字节。还有其他与别名相关的标准。这对于创建自己环境的编译器实现来说都很好,但是现代硬件上用户代码满足这些条件的频率如何?
最佳答案
该技术是有效的,如果您调用我们的 C 库 strlen
,您将无法避免它。例如,如果该库是最新版本的 GNU C 库(至少在某些目标上),它会做同样的事情。
使其工作的关键是确保指针正确对齐。如果指针对齐,则该操作肯定会读取超出字符串末尾的部分,但不会进入相邻页面。如果空终止字节在页面末尾的一个字内,则将访问最后一个字而不触及后续页面。
它在 C 中肯定不是明确定义的行为,因此当从一个编译器移植到另一个编译器时,它会承担仔细验证的负担。它还会触发 Valgrind 等越界访问检测器的误报。
Valgrind 必须修补才能绕过 Glibc 执行此操作。如果没有补丁,您会遇到如下令人讨厌的错误:
==13669== Invalid read of size 8
==13669== at 0x411D6D7: __wcslen_sse2 (wcslen-sse2.S:59)
==13669== by 0x806923F: length_str (lib.c:2410)
==13669== by 0x807E61A: string_out_put_string (stream.c:997)
==13669== by 0x8075853: obj_pprint (lib.c:7103)
==13669== by 0x8084318: vformat (stream.c:2033)
==13669== by 0x8081599: format (stream.c:2100)
==13669== by 0x408F4D2: (below main) (libc-start.c:226)
==13669== Address 0x43bcaf8 is 56 bytes inside a block of size 60 alloc'd
==13669== at 0x402BE68: malloc (in /usr/lib/valgrind/vgpreload_memcheck-x86-linux.so)
==13669== by 0x8063C4F: chk_malloc (lib.c:1763)
==13669== by 0x806CD79: sub_str (lib.c:2653)
==13669== by 0x804A7E2: sysroot_helper (txr.c:233)
==13669== by 0x408F4D2: (below main) (libc-start.c:226)
Glibc 使用 SSE 指令来计算 wcslen
一次八个字节(而不是四个,wchar_t
的宽度)。这样做时,它在 60 字节宽的 block 中的偏移量 56 处进行访问。但是,请注意,此访问永远不会跨越页面边界:地址可以被 8 整除。
如果您使用的是汇编语言,则无需再考虑该技术。
事实上,该技术在我使用的一些优化音频编解码器(针对 ARM)中使用得相当多,这些编解码器在 Neon 指令集中包含大量手写汇编语言。
我在集成这些编解码器的代码上运行 Valgrind 时注意到它,并联系了供应商。他们解释说这只是一种无害的循环优化技术;我研究了汇编语言并说服自己他们是对的。
关于c - 这个速度有多危险 `strlen` ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31062721/
有一个 strlen 和一个 wcslen 函数,但是有一个模板字符数组长度函数,所以你可以做一些类似 strlen 的事情或 strlen ? 如果没有,那我想我会自己写。 最佳答案 你有 std:
我目前正在编写一个需要频繁比较字符串长度的 C 程序,所以我编写了以下帮助函数: int strlonger(char *s1, char *s2) { return strlen(s1) -
我有一些代码获取一个文件,将每一行读入一个新的字符串数组(并向每个字符添加 128),然后将每个数组分配给一个指针数组,然后打印每个数组。尝试运行代码时,我收到一条错误消息,指出由于以下原因导致的段错
假设我有一个大小相同的字符串数组。 char strings[][MAX_LENGTH]; strlen(strings) 和 strlen(*strings) 之间有什么区别? 我知道 string
我不知道是什么原因导致这个问题...感谢任何帮助!我已经尝试了很多 strlen 代码,但这是唯一一个我可以实现且只有 1 个错误的代码。使用此代码,我尝试从文件中读取字符串,将其分解为由空格分隔的单
我有这个代码: int main() { char ch[15]; cout<
所以我正在学习嵌入式系统类(class),我们正在使用 C 语言。现在是第 2 周,所以我们只是刷新我们的 C 代码内存。 这段代码是如何打印出数字 6 的?幕后发生了什么? int main (vo
这个问题在这里已经有了答案: What do the parentheses around a function name mean? (3 个答案) 关闭 8 年前。 在 bstrlib.c(bs
编码 strlen($a); } “正确”的解决方案,在所有版本中都能正常工作(至少自从引入了飞船运算符(operator)以来)。 https://3v4l.org/6XRYW 关于php - P
我说strlen没用出于效率目的。因为如果你使用strlen那么你已经迭代了一个字符串,并且最好的算法总是迭代给定的容器不超过一次。所以请帮助我思考如何实现一个功能 bool contains ( c
这个问题已经有答案了: error: conflicting types for built-in function ‘tolower’ [-Werror] (2 个回答) 已关闭 4 年前。 我正在
我很困惑。有什么区别: char *someFunction(char *src) { char str[strlen(src) + 1]; ... return str; }
我有以下来自数据库的字符串:Let's Get Functional 如果我通过 strlen 运行它,它会返回 25 个字符而不是预期的 20 个字符。var 转储显示字符串看起来像上面的字符串(没
我正在使用 C 字符串库的 strlen 函数。我传递了一个 NULL字符串并找到神秘的结果。我知道我不应该传递 NULL 字符串,但我需要一个解释。代码看起来像这样 main() { int k
此代码返回 n=11,第 10 个和第 11 个字符为 ' ' 和 '@' 这是如何运作的? strlen函数怎么把它当成11个字符?在某些编译器中,它似乎将字符串长度设为 12 个字符。 #incl
以下代码能够确定 DWORD 的一个或多个字节是否设置为 0。 mov eax, value mov edx, 07EFEFEFFh add edx, eax xor eax, 0FFFFFFFFh
我在这里找到解决方案时遇到问题。我正在为使用 for() 的客户开发 WordPress 主题。循环遍历页面标题,以便将其包装在 中s 并垂直显示.. 循环使用 strlen()找到标题的长度,但由
我在理解 strlen 和/或 memcpy 时遇到问题。这是片段: char * restP; char * str; //this returns a pointer restP = strrst
好的,我正在检查一个字符串是否至少有 4 个字符长且至少有 25 个字符短 我试过这样使用strlen $userNameSignupLength = strlen($userNameSignup);
#include #include #include int main(void) { char qq[] = {'a' , 'b' , 'c' , 'd'}; char qqq
我是一名优秀的程序员,十分优秀!