Powershell 二进制 grep-6ren

Powershell 二进制 grep

转载作者：行者123 更新时间：2023-12-02 23:17:13

28

4

有没有办法在powershell中确定指定的文件是否包含指定的字节数组(在任何位置)？

就像是:

fgrep --binary-files=binary "$data" "$filepath"

当然，我可以写一个幼稚的实现:

function posOfArrayWithinArray {
    param ([byte[]] $arrayA, [byte[]]$arrayB)
    if ($arrayB.Length -ge $arrayA.Length) {
        foreach ($pos in 0..($arrayB.Length - $arrayA.Length)) {
            if ([System.Linq.Enumerable]::SequenceEqual(
                $arrayA,
                [System.Linq.Enumerable]::Skip($arrayB, $pos).Take($arrayA.Length)
            )) {return $pos}
        }
    }
    -1
}

function posOfArrayWithinFile {
    param ([byte[]] $array, [string]$filepath)
    posOfArrayWithinArray $array (Get-Content $filepath -Raw -AsByteStream)
}

// They return position or -1, but simple $false/$true are also enough for me.

— 但它是极减缓。

最佳答案

对不起，补充答案。这样做并不常见，但普遍问题引起了我的兴趣，我最初的“using -Like”答案的方法和信息完全不同。顺便说一句，如果您正在寻找对“我相信它必须存在于 .NET 中”问题的积极回应以接受答案，那么它可能不会发生，StackOverflow 搜索与 C# 相结合存在同样的问题。 , .Net或 Linq .
无论如何，事实上没有人能够找到唯一的假设 .Net到目前为止，有几个 semi-.Net 是可以理解的。正在使用解决方案，但我相信这会导致通用功能的一些不受欢迎的开销。
假设您字节数组 (正在搜索的字节数组)和 SearchArray (要搜索的字节数组)是完全随机的。 中的每个字节只有 1/256 的机会。字节数组 将匹配 的第一个字节SearchArray .在这种情况下，您不必进一步查看，如果匹配，则第二个字节也匹配的可能性为 1/2562，依此类推。这意味着内循环将仅运行大约 。 1.004 是外循环的倍数。换句话说，内循环之外(但在外循环中)的所有性能几乎与内循环中的性能一样重要!
请注意，这也意味着 500Kb 随机序列存在于 100Mb 随机序列中的可能性几乎为零。 (那么，您给定的二进制序列实际上有多随机？，如果它们远非随机，我认为您需要在问题中添加更多细节)。对于我的假设，更糟糕的情况是 字节数组 存在相同的字节(例如 0, 0, 0, ..., 0, 0, 0 )和 SearchArray 以不同字节结尾的相同字节(例如 0, 0, 0, ..., 0, 0, 1 )。
基于此，它再次表明(我也在其他一些答案中证明了这一点) native PowerShell 命令并没有那么糟糕，甚至可能超过 .Net/ Linq 在某些情况下命令。在我的测试中，以下 Find-Bytes函数大约是您问题中函数的 20% 到两倍:
查找字节
返回 -Search 所在位置的索引字节序列在 -Bytes 中找到字节序列。如果未找到搜索序列 $Null ( [System.Management.Automation.Internal.AutomationNull]::Value ) 被返回。
参数 -Bytes要搜索的字节数组-Search要搜索的字节数组-Start定义在 Bytes 中开始搜索的位置序列(默认: 0 )-All默认情况下，只会返回找到的第一个索引。使用 -All switch 返回找到的任何其他搜索序列的剩余索引。

Function Find-Bytes([byte[]]$Bytes, [byte[]]$Search, [int]$Start, [Switch]$All) {
    For ($Index = $Start; $Index -le $Bytes.Length - $Search.Length ; $Index++) {
        For ($i = 0; $i -lt $Search.Length -and $Bytes[$Index + $i] -eq $Search[$i]; $i++) {}
        If ($i -ge $Search.Length) { 
            $Index
            If (!$All) { Return }
        } 
    }
}

用法示例:

$a = [byte[]]("the quick brown fox jumps over the lazy dog".ToCharArray())
$b = [byte[]]("the".ToCharArray())

Find-Bytes -all $a $b
0
31

基准
请注意，您应该打开一个新的 PowerShell session 以正确地对此进行基准测试，因为 Linq 使用了一个不适用于您的用例的大型缓存。

$a = [byte[]](&{ foreach ($i in (0..500Kb)) { Get-Random -Maximum 256 } })
$b = [byte[]](&{ foreach ($i in (0..500))   { Get-Random -Maximum 256 } })

Measure-Command {
    $y = Find-Bytes $a $b
}

Measure-Command {
    $x = posOfArrayWithinArray $b $a
}

关于Powershell 二进制 grep，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62400436/

28

4

0

文章推荐： elasticsearch - 弹性休息高级API RolloverRequest

文章推荐： powershell - “speak”类的奇怪属性

文章推荐： powershell - 使用PowerShell删除行

grep - 需要有关 grep 另一个 grep 命令输出的帮助
我有一个文件 test.log。非常大的日志文件。它有不同级别的日志记录。例如，trace , debug , info , warning和 error . 显然trace级别消息只是高速发送垃圾邮
UNIX grep 命令(grep -v grep)
我正在经历一些事情，发现了我无法理解的事情， grep -v grep 这意味着什么？我知道 -v 开关将选择所有不匹配的行。但为什么是第二个grep？这是完整的命令: ps -ef | grep
grep - grep 中的数字导致一行
我使用 egrep 输出一些带有平台名称的行: XXX | egrep "i686-nptl-linux-gnu$|i686-w64-mingw32$|x86_64-unknown-linux-gnu
grep - 'grep' 命令的退出状态码
grep退出状态部分报告中的手册: EXIT STATUS The exit status is 0 if selected lines are found, and 1 if not
grep - 需要对多个字符串的第一次出现进行 grep
我试图返回多个字符串的第一次出现，即，我想从以下文本中选择第一次出现 1259、3009 和 1589 的行。 ADWN 1259 11:00 B23 ADWN 3009
grep - grep 是什么风格的正则表达式？
我猜它不是 Perl 兼容的正则表达式，因为有一种特殊的 grep具体来说就是 PCRE。什么是grep最相似？ grep有什么特别的怪癖吗？我需要知道什么？ (我习惯了 Perl 和 PHP 中的
grep - grep 可以只显示与搜索模式匹配的单词吗？
有没有办法让 grep 从与搜索表达式匹配的文件中输出“单词”？如果我想在多个文件中查找“th”的所有实例，我可以这样做: grep "th" * 但是输出会是这样的(粗体是我写的)； some-t
grep - grep 允许搜索重复项吗？
我有许多(近 100 个)大 csv 文件，第一列中有 sellID。我知道某些 sellID 在 2 个或更多文件中重复 2 次或多次。是否可以使用 grep 找到所有重复的 sellID(创建映射
grep - 将文件列表传递给 grep
我有一个文件中的文件列表。该列表很大，并且文件名是非标准的:这意味着有些文件包含空格、非 ASCII 字符、引号、单引号... 因此，将庞大的文件列表作为参数传递给 grep 并不是一种选择: 因为我
grep - 使用带有两个变量的 grep
我想在 shell 脚本中使用 grep 和两个变量 var = match cat list.txt | while read word_from_list; do grep "$word_
grep - 基本 grep
我有一个大文件，其中每一行都包含一个子字符串，例如 ABC123。如果我执行 grep ABC file.txt 或 grep ABC1 file.txt 我按预期返回这些行，但如果我执行 grep
grep - grep 命令的奇怪行为
当我执行以下 grep 时，我得到的结果我无法向自己解释: host:/usr/local/tomcat > grep '-XX:PermSize=256m' * RELEASE-NOTES:
grep - 如何在具有特定扩展名的文件中递归 grep？
这个问题在这里已经有了答案: grep recursively for a specific file type on Linux (5 个回答) 关闭4年前。要在子目录中查找所有带有 .out 扩
grep - grep 自动忽略文件
有什么方法可以让我在搜索某些东西时使用 grep 忽略某些文件，相当于 svnignore 或 gitignore 的东西？我通常在搜索源代码时使用类似的东西。 grep -r something *
grep - grep 可以只显示匹配搜索模式的单词吗？
有没有办法让 grep 从匹配搜索表达式的文件中输出“单词”？如果我想在多个文件中找到“th”的所有实例，我可以这样做: grep "th" * 但是输出会是这样的(粗体是我的)； some-tex
bash - Grep $value `grep $value2 ` `` - 嵌套 grep？
我是 awk/sed 的完全菜鸟，所以如果我在这里遗漏了一些明显的东西，请原谅我。基本上我正在尝试做一个嵌套的 grep，即类似于: grep $value `exim -Mvh $(`exim -
grep - 管道 shasum 到 grep，但 grep 返回管道输入的所有行，即使是不匹配的
我正在尝试编写下载 node.js source 的脚本和 corresponding SHASUMS256.txt ，校验和，grep OK，不返回任何结果，使用 grep 的 -q 标志成功退出代
linux - grep "str"和 grep 之间有什么区别？和 grep "str"*
在 grep "str"* 这是否意味着 grep 执行 grep 的所有内容？那么 grep -r "str". 的结果比前一个多最佳答案当您运行 grep str * 时，shell 将扩展
grep - 只获取 grep 精确匹配
我正在尝试 grep 文件以查找匹配项的确切出现，但我也得到了更长的虚假匹配项: grep CAT1717O99 myfile.txt -F -w 输出: CAT1717O99 CAT1717O99
grep - 反向匹配的异常 grep 行为
我有一个文件，其中包含我希望通过未指定分析运行的标识符(每行一个)。如果一切运行正常，分析将输出具有相同标识符的另一个列表(不一定按相同顺序)。然而，事实证明，对某些输入标识符没有进行分析，并且这些

首页

博学

6Ren·AI

商城

Powershell 二进制 grep