python - 使用 Python 解压缩数据包的 gzip 有效负载-6ren

python - 使用 Python 解压缩数据包的 gzip 有效负载

转载作者：太空宇宙更新时间：2023-11-04 03:32:58

25

4

我目前正在开发一个程序，该程序采用 .pcap 文件并使用 scapy 包通过 ip 分离出所有数据包。我想解压缩使用 gzip 包压缩的有效负载。我可以判断有效载荷是否被压缩，因为它包含

Content-Encoding: gzip

我正在尝试使用

fileStream = StringIO.StringIO(payload)
gzipper = gzip.GzipFile(fileobj=fileStream)
data = gzipper.read()

解压缩有效负载，其中

payload = str(pkt[TCP].payload)

当我尝试这样做时，我得到了错误

IOError: Not a gzipped file

当我打印我得到的第一个有效载荷时

HTTP/1.1 200 OK
Cache-Control: private, max-age=0
Content-Type: text/html; charset=utf-8
P3P: CP="NON UNI COM NAV STA LOC CURa DEVa PSAa PSDa OUR IND"
Vary: Accept-Encoding
Content-Encoding: gzip
Date: Sat, 30 Mar 2013 19:23:33 GMT
Content-Length: 15534
Connection: keep-alive
Set-Cookie: _FS=NU=1; domain=.bing.com; path=/
Set-Cookie: _SS=SID=F2652FD33DC443498CE043186458C3FC&C=20.0; domain=.bing.com; path=/
Set-Cookie: MUID=2961778241736E4F314E732240626EBE; expires=Mon, 30-Mar-2015 19:23:33 GMT; domain=.bing.com; path=/
Set-Cookie: MUIDB=2961778241736E4F314E732240626EBE; expires=Mon, 30-Mar-2015 19:23:33 GMT; path=/
Set-Cookie: OrigMUID=2961778241736E4F314E732240626EBE%2c532012b954b64747ae9b83e7ede66522; expires=Mon, 30-Mar-2015 19:23:33 GMT; domain=.bing.com; path=/
Set-Cookie: SRCHD=D=2758763&MS=2758763&AF=NOFORM; expires=Mon, 30-Mar-2015 19:23:33 GMT; domain=.bing.com; path=/
Set-Cookie: SRCHUID=V=2&GUID=02F43275DC7F435BB3DF3FD32E181F4D; expires=Mon, 30-Mar-2015 19:23:33 GMT; path=/
Set-Cookie: SRCHUSR=AUTOREDIR=0&GEOVAR=&DOB=20130330; expires=Mon, 30-Mar-2015 19:23:33 GMT; domain=.bing.com; path=/

?}k{?H????+0?#!?,_???$?:?7vf?w?Hb???ƊG???9???/9U?\$;3{9g?ycAӗ???????W{?o?~?FZ?e ]>??<??n????׻?????????d?t??a?3?
?2?p??eBI?e??????ܒ?P??-?Q?-L?????ǼR?³?ׯ??%'
?2Kf?7???c?Y?I?1+c??,ae]?????<{?=ƞ,?^?J?ď???y??6O?_?z????_?ޞ~?_?????Bo%]???_?????W=?

有关其他信息，这是一个被隔离的数据包，因为它包含内容编码:来自项目提供的示例 .pcap 文件的 gzip。

最佳答案

为了解码 gzip 压缩的 HTTP 响应，您只需解码响应正文，而不是 header 。

在您的例子中，payload 是整个 TCP 有效负载，即包括 header 和正文的整个 HTTP 消息。

HTTP 消息(请求和响应)为 RFC 822消息(与电子邮件消息 (RFC 2822) 所基于的通用消息格式相同)。

822 消息的结构非常简单:

零个或多个标题行(由 : 分隔的键/值对)，由 CRLF 终止
一个空行(CRLF(回车，换行，so '\r\n')
邮件正文

您现在可以自己解析此消息以隔离正文。但我更愿意推荐您使用 Python 已经为您提供的工具。 httplib模块 (Python 2.x) 包括 HTTPMessage httplib 内部用来解析 HTTP 响应的类。它并不意味着可以直接使用，但在这种情况下我可能仍会使用它 - 它会为您处理一些 HTTP 特定的细节。

以下是如何使用它来将正文与 header 分开:

>>> from httplib import HTTPMessage
>>>
>>> f = open('gzipped_response.payload')
>>>
>>> # Or, if you already have the payload in memory as a string:
... # f = StringIO.StringIO(payload)
...
>>> status_line = f.readline()
>>> msg = HTTPMessage(f, 0)
>>> body = msg.fp.read()

HTTPMessage 类的工作方式类似于 rfc822.Message做:

首先，您需要读取(或丢弃)状态行 (HTTP/1.1 200 OK)，因为它不是 RFC822 消息的一部分，也不是 header 。
然后您实例化 HTTPMessage，并带有打开文件的句柄，并将 seekable 参数设置为 0。文件指针存储为 msg.fp
在实例化时，它会调用 msg.readheaders()，读取所有标题行，直到遇到空行 (CRLF)。
此时，msg.fp 已经前进到 header 结束和正文开始的位置。因此，您可以调用 msg.fp.read() 来阅读消息的其余部分 - 正文。

在那之后，你解压 gzipped body 的代码就可以工作了:

>>> body_stream = StringIO.StringIO(body)
>>> gzipper = gzip.GzipFile(fileobj=body_stream)
>>> data = gzipper.read()
>>>
>>> print data[:25]
<!DOCTYPE html>
<html>

关于python - 使用 Python 解压缩数据包的 gzip 有效负载，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30332485/

25

4

0

文章推荐： c - 从二维数组切换到一维(字符串)

文章推荐： linux - 如何使用linux访问其他系统中的文件

文章推荐： jQuery fadeIn 不适用于 Z-index

文章推荐： c - 在 libev 中锁定 io watcher 和 timer watch

gzip - 是否可以使用静态字典创建有效的 gzip？
我正在尝试创建有效的 gzip 文件(可以使用标准 Linux gzip 解压缩)，其中的数据使用 DEFLATE 算法和静态/预设字典编码。我已阅读 DEFLATE 的两个规范和 gzip ，而且
gzip - 为什么各大网站都使用 gzip？
我刚刚搜索了gzip和 Deflate ，并发现 Deflate 更好。 GZip or Deflate for HTTP compression Why use deflate instead of
gzip - GZip 算法如何工作？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度的了解。包括尝试的解决方案、为什么它们不起作用以及预期结果
gzip - GZip 是否支持多部分文件压缩？
我一直在寻找 Gzip 是否支持多部分文件压缩。 From what I have seen so far it does not, but how come 7z allows multipart
gzip - 我可以连接两个已经 gzip 的文件(使用 gzip)然后用枪压缩它们吗？
我可以连接两个已经 gzip 的文件(使用 gzip)然后用枪压缩它们吗？截至今天，我从远程服务器下载 gzip 压缩文件，单独对其进行 gunzip，然后将它们合并。希望通过合并 gzipped
c# - 如果 gzip 文件是通过组合多个 gzip 文件创建的，Chrome 不会解压缩 gzip 文件
我正在创建两个 gzip 文件，一个只包含一个 gzip 成员，而第二个包含 2 个 gzip 成员(两个文件连接成一个 gzip 文件)。当我尝试通过网络服务器下载此文件时，chrome 会很好地
gzip - 为什么 gzip 文件大小每次都不同？
当我对文件夹进行去皮重和 gzip 压缩时，每次我都会得到不同的文件大小。目录内容不变，没有变化。压缩后的文件大小变化 20 到 100 字节。这是正常行为吗？我的数据会受到影响吗？谢谢最佳答
gzip - 读取 gzip 文本文件的最后几行
比方说 file.txt.gz有 2GB，我想看到最后 100 行左右。 zcat
php - gzip 或非 gzip
我一直听说对您的网站进行 gzip 压缩是加快交付速度的良好做法。我的网站总体负载非常大，我还应该研究 gzip 吗？我还了解了使用 gzip 的缺点，例如解压缩内容以便浏览器显示所需的时间。这是真的
gzip - 文件在哪里以及如何被 gzip 压缩？
下载 jQuery 的生产副本时，链接旁边显示该文件为 32K Minified & Gzipped。我得到了 Minified，但是 Gzipped 是什么意思？它是否被网络服务器压缩，如 Apa
gzip - Yslow 无法识别我的 gzip
我的网站很高兴根据以下内容进行 Gzip 压缩: http://www.gidnetwork.com/tools/gzip-test.php 但是，当我通过 Yslow 运行它时，我得到了 Gzip
gzip - tar -xvf file.tar.gz 失败，出现 : gzip:stdin:not in gzip format
我使用命令 tar 一组文件:tar -czvf file.tar.gz file/ 然后复制到 USB(ext4 格式)，我检查了我可以解压它。重装系统后，挂载usb时发生了一些错误，我执行fsck
gzip - 只提供 gzip 文件 - 一个好主意？
我有一个提供小部件的网络服务。为了可扩展性，我想在 Amazon S3 上保留 js 文件的 gzip 版本。问题是不能接受 gzip 文件的浏览器将不会被提供。任何人都知道我在哪里可以找到统计数据
gzip - tools.gzip 似乎不压缩cherrypy 中的内容
我正在使用 Chrome 和 Firefox 下的 Yslow 工具查看我的开发站点，其中一项建议是我对适当的内容进行 gzip。作为起点，我刚刚在我的 [/] 配置中添加了“tools.gzip.o
gzip - Safari 不接受 gzip 压缩的内容？
我正在开发一个网站，我正在使用 gzip.exe 来预压缩 css 和 js 文件(只有 1 个 css 文件从 4.53 KB 到 1.50 KB，还有一个 js 文件包含 jquery 和一些来自
gzip - 安卓 Volley : gzip response
我们必须使用什么类型的响应监听器来处理 Android Volley 的 gzip 响应？如果使用 String 监听器，则响应似乎会丢失其编码。你如何使用 Volley 处理 gzip 响应？
gzip - Fiddler 不解压 gzip 响应
我用 Fiddler调试我的应用程序。每当响应被服务器压缩，而不是解压缩响应时，Fiddler 显示不可读的二进制数据: /* Response to my request (POST) */ HTT
gzip - 利用多核进行tar+gzip/bzip压缩/解压
我通常使用tar zcvf压缩并使用tar zxvf解压缩(由于习惯使用gzip)。我最近购买了一个具有超线程功能的四核 CPU，因此我有 8 个逻辑核心，并且我注意到许多核心在压缩/解压缩期间未使
gzip - 谷歌云存储控制台 Content-Encoding to gzip
我正在使用 Google Cloud Storage 控制台上传文件。我没有使用任何命令行工具。我想在元数据中将 Content-Encoding 设置为 gzip(-z 选项)。请看下面的截图，
gzip - mysqldump 管道 gzip 速度差异
我正在将mysqldump的结果用管道传输到gzip，gzip的速度似乎大大落后 gzip: 34.9MiB 0:01:54 [ 218kiB/s] mysqldump: 735MiB 0:01:5

首页

博学

6Ren·AI

商城

python - 使用 Python 解压缩数据包的 gzip 有效负载