Java:对 2.5M 字符串使用互斥正则表达式 (15) 的有效方法？-6ren

Java:对 2.5M 字符串使用互斥正则表达式 (15) 的有效方法？

转载作者：塔克拉玛干更新时间：2023-11-02 08:20:10

24

4

我的困境如下:我试图将外部文件中的字符串与互斥的正则表达式匹配(即一个字符串不能匹配多个正则表达式

您建议使用哪种算法来将给定字符串与保证不与其他用例相交的 RegEx 相匹配？

该程序在语法上是有效的，但就目前而言存在重叠。文件中有 2.5m 行。

我正在考虑标记文件中的每一行，然后为每个条件设置标志(因此，如果“x”包含 [A-Z]+ 设置大写标志)

Regular expressions must check for the presence of:

Punctuation

Upper-case letters

Lower-case letters

Integers

可能的用例:

U = Upper-case letter L = Lower-case letter P = Punctuation N = Number

---- null
U--- [A-Z]+
UL-- [A-Za-z]+
U-N- [A-Z0-9]+
ULN- [A-Za-z0-9]+
ULNP [\\p{Punct}\\sA-Za-z0-9]+
-L-- [a-z]+
-LN- [a-z0-9]+
--N- [0-9]
---P [\\p{Punct}\\s]+
U--P [\\p{Punct}\\sA-Z]+
-L-P [\\p{Punct}\\sa-z]+
--NP [\\p{Punct}\\s0-9]+
UL-P [\\p{Punct}\\sA-Za-z]+
U-NP [\\p{Punct}\\sA-Z0-9]+
ULNP [\\p{Punct}\\sA-Za-z0-9]+

到目前为止我所拥有的(效率低下，正则表达式重叠)

public static void main(String[] args) {
File file = new File("/home/tyler/workspace/PasswordAnalyzer/docs/test.txt");

try {
    Scanner scan = new Scanner(file);
    while (scan.hasNextLine()) {
        String s = scan.nextLine();
        /*****************************************
        * Evaluate password Strings using RegExs
        ******************************************/
        if(s.matches("[A-Z0-9]+")){
            //Upper-case & numeric

        } else if(s.matches("[a-z0-9]+")){
            //Lower-case & numeric

        } else if(s.matches("[A-Za-z0-9]+")){
            //Alphanumeric

        } else if(s.matches("[A-Za-z]+")){
            //Upper-case & lower-case

        } else if(s.matches("[0-9]+")){
            //Numeric

        } else if(s.matches("[A-Z]+")){
            //Upper-case

        }  else if(s.matches("[a-z]+")){
            //Lower-case

        } else if(s.matches("[\\p{Punct}\\s]+")){
            //Punctuation

        } else if(s.matches("[\\p{Punct}\\sA-Z]+")){
            //Punctuation & upper-case

        } else if(s.matches("[\\p{Punct}\\sa-z]+")){
            //Punctuation & lower-case

        } else if(s.matches("[\\p{Punct}\\s0-9]+")){
            //Punctuation & numeric

        } else if(s.matches("[\\p{Punct}\\sA-Za-z]+")){
            //Punctuation & alphabetical

        } else if(s.matches("[\\p{Punct}\\sA-Z0-9]+")){  
            //Punctuation & upper-case & numeric

        } else if(s.matches("[\\p{Punct}\\sa-z0-9]+")){
            //Punctuation & lower-case & numeric

        } else if(s.matches("[\\p{Punct}\\sA-Za-z0-9]+")){
            //Punctuation & alphanumeric

        } else {
            System.err.println("ERROR: unhandled RegEx");
        } 
    } //loop
} catch (FileNotFoundException fnfe){
    System.err.println(fnfe.getMessage());
}

}//main()

修订:为 4 种可能的条件(大写、小写、数字、标点符号)设置标志，动态生成相应变量的名称，并相应地递增。想法？

(main() 的底部)

public static void main(String[] args) {
File file = new File("/home/tyler/workspace/PasswordAnalyzer/docs/test.txt");
Analyzer a = new Analyzer(); //used by Java reflections object

try {
    Scanner scan = new Scanner(file);
    while (scan.hasNextLine()) {
        String s = scan.nextLine();
        //Flags
        boolean U_flag = false;
        boolean L_flag = false;
        boolean N_flag = false;
        boolean P_flag = false;

        for(int i=0; i<s.length(); i++){
            String c = s.substring(i, i);
            /*****************************************
             * Set flags (U,L,N,P)
             ****************************************/
            //U_flag (upper-case)
            if(c.matches("[A-Z]+")){
                U_flag = true;
            }
            //L_flag (lower-case)
            if(c.matches("[a-z]+")){
                L_flag = true;
            }
            //N_flag (numeric)
            if(c.matches("[0-9]+")){
                N_flag = true;
            }
            //P_flag (punctuation)
            if(c.matches("[\\p{Punct}\\s]+")){
                P_flag = true;
            }
            /*****************************************
             * Identify corresponding counter variable
             ****************************************/
            String dest = "";

            //U_flag
            if(U_flag){dest.concat("U");
            } else {dest.concat("_");}

            //L_flag
            if(L_flag){dest.concat("L");
            } else {dest.concat("_");}

            //N_flag
            if(N_flag){dest.concat("N");
            } else {dest.concat("_");}

            //P_flag
            if(P_flag){dest.concat("P");}

            //increment variable stored in dest (Java reflections?)

        }//for-loop
    } //while-loop
} catch (FileNotFoundException fnfe){
    System.err.println(fnfe.getMessage());
}

}//main()

最佳答案

就目前而言，您有很多重叠之处。例如，

U--- [A-Z]+
UL-- [A-Za-z]+
U-N- [A-Z0-9]+
ULN- [A-Za-z0-9]+
ULNP [\\p{Punct}\\sA-Za-z0-9]+

第一个正则表达式匹配的任何字符串也将被任何后续表达式匹配。

如果我正确解释了您的问题，那么您正试图通过它包含的不同字符类来表征每个输入字符串。例如，字符串ABCDE被描述为U---，而Ab9b8被描述为ULN-。

要做到这一点，你所要做的就是(伪代码):

for (String s in allStrings)
{
    int charClass = 0
    for (Char c in s.characters)
    {
        case c
            when upper-case: 
                charClas |= 8
                break;
            when lower-case: 
                charClas |= 4
                break;
            when numeric: 
                charClas |= 2
                break;                
            when punctuation: 
                charClas |= 1
                break;
    }
    // do something with charClass
}

在“do something”注释中，charClass 的值(作为位字符串)将包含您的 ULNP 值。要将其转换为包含 U、L、N 和 P 的文字字符串，您可以设置一个字符串数组

String[] ulnpStrings = { "----","---P","--N-","--NP","-L--", "-L-P",... etc };

然后使用charClass 的值作为该数组的索引。要计算出现次数，请对数组执行相同的操作

int[] ulnpCounts = new int[16];

并在每次迭代时根据 charClass 的值增加元素，因此

    ...
    // do something with charClass
    unlpCounts[charClass]++
}
for (int i=0; i<unlpStrings.length; i++)
{
    System.out.printf("%s %6d\n",unlpStrings[i],unlpCounts[i]);
}

关于Java:对 2.5M 字符串使用互斥正则表达式 (15) 的有效方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13434971/

24

4

0

文章推荐： Java在简单方程式中重复小数

文章推荐： ios - 刷新 UILabel

文章推荐： java - 如何在java中验证日期字符串

Java 互斥
我只是有一个关于 Java 并发编程的简单问题。例如，我有一个 NxN 矩阵，矩阵的每一行都有一个对应的线程，如果每一行中的线程之间没有交互，如果多个线程同时访问和修改矩阵的单独行是否安全(或正确)？
javascript - 互斥 - jwPlayer
jwplayer("myElement_0").onPlay(function(){ pausePlayers(1); alert('0 has started'); }); jwplayer("my
c++:互斥、守卫和函数调用
我在想。当我使用一个std::mutex _lock 并想依赖守卫来释放它时，我可以这样使用吗？ class MyClass{ private: mutable std::mutex _loc
c# - 互斥 : is this safe?
这种互斥模式是否像我认为的那样安全？如果是这样，你怎么调用它？ lock (_lock) { if (_flag) return; else _flag = true; } try {
c++ - 互斥(在静态库中)
我有一个静态库来访问数据库。它有一个函数 readMaximum()。 readMaximum() 从数据库中读取最大值。此函数是线程安全的(使用互斥量)。但问题是: 有两个进程A.exe和B.e
javascript - 锁的基本逻辑——互斥
我正在为互斥锁的逻辑而苦苦挣扎；我在这里检查 key 是否被拿走，如果没有，我们拿走它，完成后释放它；但是你能帮我看看我怎样才能有一个循环来检查 key 直到它可用吗？ rdb.setnx(lockk
prolog - CLP(FD) 互斥
我正在使用 clp(fd) 编写 Prolog 程序并且我很难实现我想要的约束之一。输出是一个整数列表(长度取决于程序另一部分的输入)，其中有某些相互排斥的预定义数字对，每对中的一个数字必须在输出中
docker - 互斥 docker 容器的马拉松约束
我正在尝试使用 mesos/marathon 实现一个 lizardfs 集群。为此，我创建了一些 docker 镜像。我需要获取某种类型的 docker 容器(lizardfs-master)，而
php - 互斥 MySQL 全文搜索
假设我有一个包含以下列的 MySQL 表: |variables|1. | 'a' |2. | 'a b' |3. | 'a b c' |4. | ... | How can
c# - 如何使 RadioButtons 互斥
我在一个表单上有 7 个单选按钮其中3个属于一个组，4个属于另一个组我希望 RadioButtons 在组内互斥。这可以通过将它们放在两个 GroupBox 中来实现，有没有什么办法可以不把它
javascript - 使两个字段与 knockout 互斥
我正在尝试使文本输入和复选框相互排斥。默认情况下，文本框应包含“0”，复选框应为 false。如果用户选中该复选框，则该文本框应被清空。如果用户在文本框中输入值，则应取消选中该复选框。任何时候都不应
c - Posix Pthread 互斥
我已经在代码的注释中写下了我的问题。我正在尝试使用 pthreads 使我的代码并行。首先，我想通过多个线程并行地在内存中写入大量数据。写入数据后，我想通过相同的线程执行此数据。执行数据后，我想读取
c# - 锁定、监视、互斥
这个问题在这里已经有了答案: 关闭 13 年前。 Possible Duplicate: Monitor vs Mutex in c# 你好，在这个网站上，我发现来自不同人的不同答案令人困惑。仍然
linux - 与 pthread 互斥
我需要调用一个返回唯一 id 的函数， int getid() { static id=0; id++; return id; } 多个线程需要调用这个函数，我的问题是我不确定我需要在哪里锁定互斥量，
ios - 使 NSOperations 互斥
请引用来自 WWDC 的视频 https://developer.apple.com/videos/play/wwdc2015/226/演讲者展示了我们可以在两个相同类型的 NSopeation 实例
ios - CoreData 将一条记录标记为最爱(互斥)
概述: 我有一个使用 CoreData 的 iOS 应用程序> 有一个名为Animal的实体它有一组记录Lion、Tiger和Elephant 我想将只有一个记录标记为收藏。具有相同方法的相似实体
c++ - DLL 互斥 - 一个例子
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: DLL thread safety 你好我正在 MS VS C++ express 中编写一个 DLL 文
c# - 跨用户 C# 互斥
我的应用程序被迫使用第 3 方模块，如果在同一台机器上同时启动两个实例，该模块将使 Windows 蓝屏。为了解决这个问题，我的 C# 应用程序有一个互斥量: static Mutex mutex =
go - "selective"goroutines 互斥
我是 Go 的新手，我想实现一个自定义的互斥机制，每个应用程序用户一次可以执行一个 goroutine。为简化起见，将 U1 和 U2 视为应用程序用户以及 F1(userId)、F2(userId)
javascript -

首页

博学

6Ren·AI

商城

Java:对 2.5M 字符串使用互斥正则表达式 (15) 的有效方法？