java - 从 Java 字符串中去除所有不可打印字符的最快方法-6ren

java - 从 Java 字符串中去除所有不可打印字符的最快方法

转载作者：行者123 更新时间：2023-12-02 10:50:35

24

4

从 String 中去除所有不可打印字符的最快方法是什么？在 java ？

到目前为止，我已经尝试并测量了 138 字节、131 个字符的字符串:

字符串 replaceAll() - 最慢的方法

517009 结果/秒

预编译一个 Pattern，然后使用 Matcher 的 replaceAll()

637836 结果/秒

使用 StringBuffer，使用 codepointAt() 获取代码点一一并附加到 StringBuffer

711946 结果/秒

使用 StringBuffer，使用 charAt() 获取字符一一并附加到 StringBuffer

1052964 结果/秒

预分配一个 char[]缓冲区，使用 charAt() 获取字符一一填充这个缓冲区，然后转换回字符串

2022653 结果/秒

预分配 2 char[]缓冲区 - 旧的和新的，使用 getChars() 一次获取现有字符串的所有字符，逐一迭代旧缓冲区并填充新缓冲区，然后将新缓冲区转换为字符串 - 我自己最快的版本

2502502 结果/秒

有 2 个缓冲区的相同内容 - 仅使用 byte[] , getBytes()并将编码指定为“utf-8”

857485 结果/秒

与 2 相同的东西 byte[]缓冲区，但将编码指定为常量 Charset.forName("utf-8")

791076 结果/秒

与 2 相同的东西 byte[]缓冲区，但将编码指定为 1 字节本地编码(这几乎是一件明智的事情)

370164 结果/秒

我最好的尝试如下:

    char[] oldChars = new char[s.length()];
    s.getChars(0, s.length(), oldChars, 0);
    char[] newChars = new char[s.length()];
    int newLen = 0;
    for (int j = 0; j < s.length(); j++) {
        char ch = oldChars[j];
        if (ch >= ' ') {
            newChars[newLen] = ch;
            newLen++;
        }
    }
    s = new String(newChars, 0, newLen);

关于如何使其更快的任何想法？

回答一个非常奇怪的问题的奖励积分:为什么直接使用“utf-8”字符集名称比使用预先分配的静态常量产生更好的性能 Charset.forName("utf-8") ?

更新

棘轮怪胎的建议产生了令人印象深刻的 3105590 个结果/秒的性能，提高了 +24%!

Ed Staub 的建议又带来了另一项改进 - 3471017 个结果/秒，比之前的最佳结果高出 12%。

更新 2

我已尽力收集所有建议的解决方案及其交叉突变并将其发布为 small benchmarking framework at github .目前它支持 17 种算法。其中之一是“特殊” - Voo1 算法( provided by SO user Voo )采用复杂的反射技巧从而实现了出色的速度，但它会扰乱 JVM 字符串的状态，因此单独进行基准测试。

欢迎您检查并运行它以确定您的盒子上的结果。这是我对自己的结果的总结。它的规范:

Debian sid

Linux 2.6.39-2-amd64 (x86_64)

从包安装的 Java sun-java6-jdk-6.24-1 , JVM 将自己标识为

Java(TM) SE 运行时环境(版本 1.6.0_24-b07)

Java HotSpot(TM) 64 位服务器 VM(构建 19.1-b02，混合模式)

给定不同的输入数据集，不同的算法最终会显示出不同的结果。我在 3 种模式下运行了一个基准测试:

同一个字符串

此模式适用于 StringSource 提供的相同单个字符串类作为常量。摊牌是:

ops/s │ 算法
──────────┼────────────────────────────────
6 535 947 │ Voo1
──────────┼────────────────────────────────
5 350 454 │ RatchetFreak2EdStaub1GreyCat1
5 249 343 │ EdStaub1
5 002 501 │ EdStaub1GreyCat1
4 859 086 │ ArrayOfCharFromStringCharAt
4 295 532 │ RatchetFreak1
4 045 307 │ ArrayOfCharFromArrayOfChar
2 790 178 │ RatchetFreak2EdStaub1GreyCat2
2 583 311 │ RatchetFreak2
1 274 859 │ StringBuilderChar
1 138 174 │ StringBuilderCodePoint
994 727 │ ArrayOfByteUTF8String
918 611 │ ArrayOfByteUTF8Const
756 086 │ MatcherReplace
598 945 │ StringReplaceAll
460 045 │ ArrayOfByteWindows1251

以图表形式:

(来源: greycat.ru)

多个字符串，100%的字符串包含控制字符

源字符串提供程序使用 (0..127) 字符集预先生成大量随机字符串 - 因此几乎所有字符串都包含至少一个控制字符。算法以循环方式从这个预先生成的数组中接收字符串。

ops/s │ 算法
──────────┼────────────────────────────────
2 123 142 │ Voo1
──────────┼────────────────────────────────
1 782 214 │ EdStaub1
1 776 199 │ EdStaub1GreyCat1
1 694 628 │ ArrayOfCharFromStringCharAt
1 481 481 │ ArrayOfCharFromArrayOfChar
1 460 067 │ RatchetFreak2EdStaub1GreyCat1
1 438 435 │ RatchetFreak2EdStaub1GreyCat2
1 366 494 │ RatchetFreak2
1 349 710 │ RatchetFreak1
893 176 │ ArrayOfByteUTF8String
817 127 │ ArrayOfByteUTF8Const
第778章 089
734 754 │ StringBuilderCodePoint
377 829 │ ArrayOfByteWindows1251
224 140 │ MatcherReplace
211 104 │ StringReplaceAll

以图表形式:

(来源: greycat.ru)

多个字符串，1%的字符串包含控制字符

与之前相同，但只有 1% 的字符串是使用控制字符生成的 - 其他 99% 是使用 [32..127] 字符集生成的，因此它们根本不能包含控制字符。在我这里，这种合成负载最接近该算法的实际应用。

ops/s │ 算法
──────────┼────────────────────────────────
3 711 952 │ Voo1
──────────┼────────────────────────────────
2 851 440 │ EdStaub1GreyCat1
2 455 796 │ EdStaub1
2 426 007 │ ArrayOfCharFromStringCharAt
2 347 969 │ RatchetFreak2EdStaub1GreyCat2
2 242 152 │ RatchetFreak1
2 171 553 │ ArrayOfCharFromArrayOfChar
1 922 707 │ RatchetFreak2EdStaub1GreyCat1
1 857 010 │ RatchetFreak2
1 023 751 │ ArrayOfByteUTF8String
939 055 │ StringBuilderChar
907 194 │ ArrayOfByteUTF8Const
841 963 │ StringBuilderCodePoint
606 465 │ MatcherReplace
501 555 │ StringReplaceAll
381 185 │ ArrayOfByteWindows1251

以图表形式:

(来源: greycat.ru)

我很难决定谁提供了最好的答案，但鉴于现实世界的应用程序最佳解决方案是由 Ed Staub 提供/启发的，我想标记他的答案是公平的。感谢所有参与其中的人，您的意见非常有帮助且非常宝贵。随意在您的机器上运行测试套件并提出更好的解决方案(工作 JNI 解决方案，有人吗？)。

引用文献

GitHub repository带有基准测试套件

最佳答案

如果将此方法嵌入到不跨线程共享的类中是合理的，那么您可以重用缓冲区:

char [] oldChars = new char[5];

String stripControlChars(String s)
{
    final int inputLen = s.length();
    if ( oldChars.length < inputLen )
    {
        oldChars = new char[inputLen];
    }
    s.getChars(0, inputLen, oldChars, 0);

等等...

这是一个巨大的胜利 - 20% 左右，据我了解目前的最佳情况。

如果这要用于潜在的大字符串并且内存“泄漏”是一个问题，则可以使用弱引用。

关于java - 从 Java 字符串中去除所有不可打印字符的最快方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7161534/

24

4

0

文章推荐： java - Gradle多项目-在项目之间共享源代码

文章推荐： java - Android Studio 默认值/传递变量

文章推荐： SQLite 按问题分组

c - 反 C(字符 + 字符)
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度理解。包括尝试过的解决方案、为什么它们不起作用，以及预
c# - 字符 + 字符 = 整数？为什么？
为什么在 C# 中添加两个 char 结果是 int 类型？例如，当我这样做时: var pr = 'R' + 'G' + 'B' + 'Y' + 'P'; pr 变量变为 int 类型。我希望它是
c++ - 字符!=(有符号字符)，字符!=(无符号字符)
下面的代码可以编译，但 char 类型的行为与 int 类型的行为不同。特别是 cout ::ikIsX >() ::ikIsX >() ::ikIsX >() using names
正则表达式匹配 1+ 字符，但不是 500 字符
我正在寻找一个正则表达式，它可以匹配长度为 1 个或多个字符但不匹配 500 的内容。这将在 Rails 路由文件中使用，特别是用于处理异常。路线.rb match '/500', to: 'err
C - 字符 *' differs in levels of indirection from ' 字符 (*)[200]
对于 C 编程作业，我正在尝试编写几个头文件来检查所谓的“X 编程语言”的语法。我最近才开始，正在编写第一个头文件。这是我编写的代码: #ifndef _DeclarationsChecker_h_
php - 为什么这个扩展的 ascii 字符(â、é 等)被替换为字符？
为什么扩展的 ascii 字符(â、é 等)被替换为字符？我附上了一张图片...但我正在使用 PHP 从 MySQL 中提取数据，其中一些位置有扩展字符...我使用的是 Arial 字体。您可以
r - 如何在 R 中的(字符/数字)和(字符/数字)类型之间进行换行
我有一个与 R 中的断线相关的简单问题。我正在尝试粘贴，但在获取(字符/数字)之间的断线时遇到问题。请注意，这些值包含在向量中(V1=81,V2=55,V3=25)我已经尝试过这段代码: cat(p
c++ - 如何将 ANSI 字符 (char) 转换为 Unicode 字符 (wchar_t)，反之亦然？
如何将 ANSI 字符 (char) 转换为 Unicode 字符 (wchar_t)，反之亦然？是否有用于此目的的任何跨平台源代码？最佳答案是的，在中你有mbstowcs()和 wcsto
javascript - 如何通过 JavaScript 将 ANSI 字符 ID 转换为 Unicode 字符 ID？
函数 fromCharCode 不适用于国际 ANSI 字符。例如，对于 ID 为 192 到 223 的俄语 ANSI (cp-1251) 字符，它返回特殊字符。如何解决这个问题？我认为，需要将A
mysql - 我想隐藏 id，如果不喜欢，但不起作用 SELECT * FROM 字符，character_actor WHERE 字符.id 不喜欢character_actor.character_id;
如果不喜欢，我想隐藏 id，但不起作用 SELECT * FROM character, character_actor WHERE character.id NOT LIKE character_a
c - "expected ' 字符 * ' but argument is of type ' 字符 ' "- 回文 + 反向
现在这个程序成功地反转了键盘输入的单词。但是我想在我反转它之前“保存”指针中的单词，所以我可以比较两者，反转的和“原始的”，并检查它们是否是回文。我还没有太多经验，可能会出现比我知道的更多的错误，但我
c - Memcpy func 获取指针变量？字符*p；字符* q； memcpy(p,q,10);会起作用吗？
Memcpy 和 memcmp 函数可以接受指针变量吗？ char *p; char* q; memcpy(p,q,10); //will this work? memcmp(p,q,10); //w
java - 在 Java 字符(16 位)中存储 UTF-8 字符(8 位)时如何避免内存浪费。二合一？
恐怕我对一个相当过饱和的主题的细节有疑问，我搜索了很多，但找不到一个明确的答案来解决这个特定的明显-imho-重要的问题: 使用UTF-8将byte[]转换为String时，每个字节(8bit)都变成
python不打印出“字符
我有一个奇怪的问题。我需要从 stat 命令打印输出字符串。我已经编写了获取一些信息的代码。 import glob import os for file in glob.glob('system1
Java使用正则表达式转义连字符 "-"字符
我正在使用 Java 并具有其值如下所示的字符串， String data = "vale-cx"; data = data.replaceAll("\\-", "\\-\\"); 我正在替换其中的“
Java如何转义url参数中的 "&"字符？
String urlParameters = "login=test&password=te&ff"; 我有一个String urlParams，& - 是密码的一部分，如何使其转义，从而不被识别为分
Java仅从字符串中提取第一个字母/字符
大家好，我只想从此字符串中提取第一个字母: String str = "使徒行傳 16:31 ERV-ZH"; 我只想获取这些字符: 使徒行傳并且不包括 ERV-ZH 仅数
字符 * 错误访问错误
这个问题已经有答案了: Crash or "segmentation fault" when data is copied/scanned/read to an uninitialized point
字符**到字符*
所以，我有一个字符**；它本质上是一个句子，带有指向该句子中每个单词的指针；即 'h''i''\0''w''o''r''l''d''\0''y''a''y''!''\0' 在这种情况下，我希望使用可
Python打印“字符
这个问题在这里已经有了答案: Using quotation marks inside quotation marks (12 个答案) 关闭 7 年前。如何打印 " 字符？我知道打印 % 符号

首页

博学

6Ren·AI

商城

java - 从 Java 字符串中去除所有不可打印字符的最快方法