gpt4 book ai didi

c# - .NET 字节而不是字符的正则表达式

转载 作者:可可西里 更新时间:2023-11-01 03:10:30 24 4
gpt4 key购买 nike

我正在尝试做一些使用正则表达式会更容易的解析。

输入是字节数组(或枚举)。

我不想将字节转换为字符,原因如下:

  1. 计算效率
  2. 内存消耗效率
  3. 一些不可打印的字节可能很难转换为字符。并非所有字节都是可打印的。

所以我不能使用Regex .

我知道的唯一解决方案是使用 Boost.Regex (适用于字节 - C 字符),但这是一个 C++ 库,使用 C++/CLI 进行包装将需要大量工作。

如何在不使用 .NET 字符串和字符的情况下直接在 .NET 中对字节使用正则表达式?

谢谢。

最佳答案

此处存在一些阻抗失配。您希望在 .Net 中使用使用字符串(多字节字符)的正则表达式,但您希望使用单字节字符。您不能像往常一样使用 .Net 同时拥有两者。

但是,要打破这种不匹配,您可以以面向字节的方式处理字符串并对其进行变异。然后,变异的字符串可以充当可重用的缓冲区。这样,您就不必将字节转换为字符,或将输入缓冲区转换为字符串(根据您的问题)。

一个例子:

//BLING
byte[] inputBuffer = { 66, 76, 73, 78, 71 };

string stringBuffer = new string('\0', 1000);

Regex regex = new Regex("ING", RegexOptions.Compiled);

unsafe
{
fixed (char* charArray = stringBuffer)
{
byte* buffer = (byte*)(charArray);

//Hard-coded example of string mutation, in practice you would
//loop over your input buffers and regex\match so that the string
//buffer is re-used.

buffer[0] = inputBuffer[0];
buffer[2] = inputBuffer[1];
buffer[4] = inputBuffer[2];
buffer[6] = inputBuffer[3];
buffer[8] = inputBuffer[4];

Console.WriteLine("Mutated string:'{0}'.",
stringBuffer.Substring(0, inputBuffer.Length));

Match match = regex.Match(stringBuffer, 0, inputBuffer.Length);

Console.WriteLine("Position:{0} Length:{1}.", match.Index, match.Length);
}
}

使用这种技术,您可以分配一个字符串“缓冲区”,它可以重新用作 Regex 的输入,但您每次都可以用您的字节对其进行变异。这避免了每次要进行匹配时将字节数组转换\编码为新的 .Net 字符串的开销。这可能被证明是非常重要的,因为我已经看到许多 .Net 中的算法试图以每小时一百万英里的速度运行,但由于字符串生成和随后的堆垃圾邮件以及在 GC 中花费的时间而使其屈服。

显然这是不安全的代码,但它是 .Net。

虽然 Regex 的结果会生成字符串,因此您在这里遇到了问题。我不确定是否有一种使用不会生成新字符串的 Regex 的方法。您当然可以获取匹配索引和长度信息,但字符串生成违反了您对内存效率的要求。

更新

实际上,在反汇编 Regex\Match\Group\Capture 之后,看起来它只在您访问 Value 属性时生成捕获的字符串,因此如果您仅访问索引和长度属性,您至少不会生成字符串。但是,您将生成所有支持的 Regex 对象。

关于c# - .NET 字节而不是字符的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3028768/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com