gpt4 book ai didi

c# - 在多个文件中搜索多个字符串

转载 作者:太空狗 更新时间:2023-10-29 20:57:31 24 4
gpt4 key购买 nike

我有一个包含 21000 个字符串(每行一行)和 500 MB 其他文本文件(邮件源代码)的文本文件。对于每个字符串,我需要确定它是否包含在任何这些文件中。我编写的程序可以完成这项工作,但它的性能很糟糕(它会在几天内完成,我需要最多在 5-6 小时内完成这项工作)。
我正在使用 C#、Visual Studio 2010 编写

关于我的问题,我有几个问题:
a) 哪种方法更好?

foreach(string s in StringsToSearch)
{
//scan all files and break when string is found
}

foreach(string f in Files)
{
//search that file for each string that is not already found
}

b)逐行扫描一个文件是否更好

StreamReader r = new StreamReader(file);
while(!r.EndOfStream)
{
string s = r.ReadLine();
//... if(s.Contains(xxx));
}

StreamReader r = new StreamReader(file);
string s = r.ReadToEnd();
//if(s.Contains(xxx));

c) 线程是否会提高性能以及如何做到这一点?
d) 是否有任何软件可以做到这一点,这样我就不必编写自己的代码?

最佳答案

如果你只是想知道字符串是否找到,而不需要做任何进一步的处理,那么我建议你只使用grep。 Grep 非常快,专为解决此类问题而设计。

grep -f strings-file other-files...

应该可以解决问题。我确定某处有一个 Windows 实现。在最坏的情况下,Cygwin 将拥有它。

编辑:这回答了问题 d)

关于c# - 在多个文件中搜索多个字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3987212/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com