gpt4 book ai didi

regex - Bash:从 HTTP 响应中删除 header

转载 作者:行者123 更新时间:2023-11-29 08:56:30 71 4
gpt4 key购买 nike

如果我有一些包含 HTTP header 和正文的文本,例如:

HTTP/1.1 200 OK
Cache-Control: public, max-age=38
Content-Type: text/html; charset=utf-8
Expires: Fri, 22 Nov 2013 06:15:01 GMT
Last-Modified: Fri, 22 Nov 2013 06:14:01 GMT
Vary: *
X-Frame-Options: SAMEORIGIN
Date: Fri, 22 Nov 2013 06:14:22 GMT

<!DOCTYPE html>
<html>
<head>
<title>My website</title>
</head>
<body>

Hello world!

</body>
</html>

并且此文本是从命令通过管道输入的,我如何删除标题以仅保留正文?

(在标题中,\r\n 用作换行符。\r\n\r\n 标记标题的结尾和正文的开头。)

这是我尝试过的(... 表示任何命令,例如 catcurl 将输出一些 HTTP header 和正文到标准输出):

种子

我的第一个想法是用 sed 进行替换, 以删除第一次出现 \r\n\r\n 之前的所有内容:

... | sed 's|^.*?\r\n\r\n||'

但这行不通,主要是因为sed仅对个别行进行操作,因此不能对 \r 进行操作或 \n . (此外,它不支持 ? 非贪婪运算符。)

搜索

我也想到了用grep积极回顾\r\n\r\n :

... | grep -oP '(?<=\r\n\r\n).*'

但这也行不通(主要是因为 grep 仅在个别行上运行)。

pcregrep有一个多行模式( -M ),但是 pcregrep通常不可用(在 Ubuntu 12.04、Mac OS X 10.7 等中默认情况下未安装),我想要一个不需要任何非标准工具的解决方案。

perl

然后我想到用 perl 进行替换, 使用 /s修饰符使得 .匹配换行符:

... | perl -pe 's/^.*?\r\n\r\n//s'

我认为这更接近可行的解决方案。但是,我认为 Perl 的输入记录分隔符 ( $/ ) 是 \n默认,需要改成\r\n ,所以 .可以匹配\r\n . -0选项可用于设置 $/到单个字符,而不是多个字符。我试过这个,但我认为它不正确:

... | perl -pe '$/ = "\r\n"; s/^.*?\r\n\r\n//s'

另外,我认为^匹配“行首”,但需要匹配“文件开头”。

偏移量和子串

我想到了获取 \r\n\r\n 的偏移量使用:

BodyOffset=$(expr index "$MyHttpText" "\r\n\r\n")

然后使用以下方法将正文提取为子字符串:

HttpBody=${MyHttpText:BodyOffset}

不幸的是,Mac OS X 版本expr不支持 index .另外,如果可能的话,我想要一个不需要创建变量的解决方案。

参数替换

我的另一个想法是使用参数替换,其中 #表示“从 $MyHttpText 中删除与 *\r\n\r\n 前端匹配的 $MyHttpText 的最短部分”:

HttpBody=${MyHttpText#*\r\n\r\n}

但我不确定如何在命令的管道序列中使用它,而且我还是更喜欢不需要变量的解决方案。

最佳答案

可以这样做:

sed '1,/^$/d' data.txt

此命令删除从第 1 行开始到第一次出现空行 (^$) 结束的所有内容。如果您将 \n 作为换行符,则此方法有效。如果你有 \r\n 作为换行符,你可以使用 dos2unixunix2dos 来回转换它们,或者你可以添加\r 字符到 正则表达式:

sed '1,/^\r$/d' data.txt

但是,最后一行只有在你将 \r\n 作为换行符时才有效,要使其适用于两种类型的换行符,你可以使用:

sed '1,/^\r\{0,1\}$/d' data.txt

这里我们正在寻找一个包含 0 个或 1 个 \r 字符的空行。

关于regex - Bash:从 HTTP 响应中删除 header ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20179623/

71 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com