- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我用 Python 3 编写了一个微型代理模块,它只是位于我的浏览器和网络之间。我的目标只是代理来回的流量。该程序的一种行为是将我获得的网站响应保存在本地目录中。
除了在循环中使用 socket.recv()
似乎永远不会产生隐含在examples provided in the docs .几乎每个在线示例都在讨论当服务器关闭套接字时通过套接字传来的空白字符串。
我的假设是通过 keep-alive header 正在发生某些事情,其中远程服务器从不关闭套接字,除非达到其自己的超时阈值。它是否正确?如果是这样,我究竟如何检测有效载荷何时发送完毕?由于 TCP 的运行方式,观察接收到的数据小于我声明的 block 大小根本不起作用。
为了演示,以下代码在 Google 网络服务器上的图像文件中打开一个套接字。我从浏览器自己的请求中复制了实际的请求字符串。运行代码(记住,Python 3!)显示二进制图像数据已完成接收,但代码永远无法命中 break
语句。只有当服务器关闭套接字时(在大约 3 分钟的空闲时间之后),此代码才真正到达文件末尾的 print
命令。
究竟如何解决这个问题?我的目标是不修改浏览器请求的行为——我不想必须将 keep-alive
header 设置为 false
或类似花哨的东西。答案是使用一些丑陋的超时(通过 socket.settimeout()
)吗?看起来很可笑,但我不知道还能做什么。
提前致谢。
import socket
remote_host = 'www.google.com'
remote_port = 80
remote_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
remote_socket.connect((remote_host, remote_port))
remote_socket.sendall(b'GET http://www.google.com/images/logos/ps_logo2a_cp.png HTTP/1.1\r\nHost: www.google.com\r\nCache-Control: max-age=0\r\nPragma: no-cache\r\nUser-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.794.0 Safari/535.1\r\nAccept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\nAccept-Encoding: gzip,deflate,sdch\r\nAccept-Language: en-US,en;q=0.8\r\nAccept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3\r\n\r\n')
content = b''
while True:
msg = remote_socket.recv(1024)
if not msg:
break
print(msg)
content += msg
print("DONE: %d" % len(content))
最佳答案
如果你有一个保持事件的连接,那么在响应的头中会有一些消息长度的指示。参见 HTTP Message .缓冲 recv
,直到您拥有完整的 header (以空行结束),确定消息正文长度,并准确读取那么多信息。
这是一个简单的类,用于缓冲 TCP 读取,直到读取了消息终止符或特定数量的字节。我将它添加到您的示例中:
import socket
import re
class MessageError(Exception): pass
class MessageReader(object):
def __init__(self,sock):
self.sock = sock
self.buffer = b''
def get_until(self,what):
while what not in self.buffer:
if not self._fill():
return b''
offset = self.buffer.find(what) + len(what)
data,self.buffer = self.buffer[:offset],self.buffer[offset:]
return data
def get_bytes(self,size):
while len(self.buffer) < size:
if not self._fill():
return b''
data,self.buffer = self.buffer[:size],self.buffer[size:]
return data
def _fill(self):
data = self.sock.recv(1024)
if not data:
if self.buffer:
raise MessageError('socket closed with incomplete message')
return False
self.buffer += data
return True
remote_host = 'www.google.com'
remote_port = 80
remote_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
remote_socket.connect((remote_host, remote_port))
remote_socket.sendall(b'GET http://www.google.com/images/logos/ps_logo2a_cp.png HTTP/1.1\r\nHost: www.google.com\r\nCache-Control: max-age=0\r\nPragma: no-cache\r\nUser-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.794.0 Safari/535.1\r\nAccept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\nAccept-Encoding: gzip,deflate,sdch\r\nAccept-Language: en-US,en;q=0.8\r\nAccept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3\r\n\r\n')
mr = MessageReader(remote_socket)
header = mr.get_until(b'\r\n\r\n')
print(header.decode('ascii'))
m = re.search(b'Content-Length: (\d+)',header)
if m:
length = int(m.group(1))
data = mr.get_bytes(length)
print(data)
remote_socket.close()
HTTP/1.1 200 OK
Content-Type: image/png
Last-Modified: Thu, 12 Aug 2010 00:42:08 GMT
Date: Tue, 21 Jun 2011 05:03:35 GMT
Expires: Tue, 21 Jun 2011 05:03:35 GMT
Cache-Control: private, max-age=31536000
X-Content-Type-Options: nosniff
Server: sffe
Content-Length: 6148
X-XSS-Protection: 1; mode=block
b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x01l\x00\x00\x00~\x08\x03\x00\ (rest omitted)
关于python - 为什么 Python 套接字在 HTTP 套接字的 recv 循环期间没有收到最终的空白值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6419899/
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题吗? 通过 editing this post 添加细节并澄清问题. 关闭 8 年前。 Improve t
美好的一天, 我正在用 VC++ 开发一个应用程序,它使用 UDP 协议(protocol)与 Windows XP 上的 winsock 进行通信。以前我已经能够假设该工具接收到的所有数据包都来自一
所以我需要从服务器向客户端接收一个 html 文件,该文件比缓冲区大所以我发送了几次。这就是为什么我在接收时有这个循环 while (i = recv(s, buf, TAM_BUFFER, 0))
我有几个关于 C 中的套接字库的问题。这是我将在问题中引用的代码片段。 char recv_buffer[3000]; recv(socket, recv_buffer, 3000, 0); 我如何决
当我的代码处于阻塞的 recv 调用中时,如果另一端重新启动,那么这一端的 recv 调用不会知道它,只会进入挂起状态。 如何避免这种情况? 最佳答案 默认情况下,如果连接的另一端在没有正确终止连接的
我有一个在平台上运行的 TCP 服务器,它从缓冲区读取字节并在一个发送调用中通过网络发送所有字节: send(sSocket.client_sock, base, frb_size, 0); frb_
假设以下代码(为了简单起见,我在这里省略了必要的错误处理): recv(sockfd, NULL, 0, MSG_PEEK); recv(sockfd, buff, bufflen, 0); 在那种情
我想用 ansible 安装 facebook osquery。 ubuntu的使用说明如下: sudo apt-key adv --keyserver keyserver.ubuntu.com --
我遇到了 recv() 和 send() winsock api 的问题。 Recv() 在接收最后一个数据包时挂起。 问题描述:- 系统 A 的应用正在通过非阻塞套接字写入数据,而系统 B 的应用正
我正在构建一个 TCP 应用程序,它使用换行符 \n 来分隔未知长度(但通常小于 64 字节)的消息。我正在寻找 this article非常有用。 是一次recv一个字符并检查它是否为换行符或r
我使用 epoll 实现 TCP 套接字通信来监视所有客户端事件,只有一个线程在一个 for 循环中处理所有客户端。每个套接字都是非阻塞的。 现在我遇到了一个问题,当客户端发送的数据超过MTU时,意味
在python中,方法是: socket.recv(bufsize[, flags]) 在C中,方法是: int recv( _In_ SOCKET s, _Out_ char *buf, _In_
如果我有一个套接字 s 会发生什么,它上面当前没有可用数据,它是一个阻塞套接字,我从两个套接字上调用 recv线程一次?其中一个线程会获取数据吗?双方都会得到吗?第二次调用 recv 会返回错误吗?
我有一个非常烦人的问题,我在其他论坛上发现了几次,但是找不到合适的解决方案。 问题是recv()在连接的最后几个字节上返回0。以下是一些背景信息。 两种(客户端/服务器)应用程序都在同一台计算机上运行
我正在使用 C 语言在 Unix 上编写客户端/服务器程序,使用发送/接收。我偶尔会从 recv 调用中遇到段错误。该行为不能完全重现;有时它会发生,有时程序会运行到完成。 知道这意味着什么吗? 最佳
我想 mock 套接字的recv函数并遇到麻烦。即使我没有必要,也要获取实际上连接套接字所需的错误。 这是所有相关代码: Class A: def __init__.py(self):
我已经编写了一个服务器-客户端程序,我想问一问:32位和64位操作系统之间recv()函数的行为是否有所不同。 我之所以这样问是因为我在64位笔记本电脑上同时运行服务器和客户端,并且一切正常。我这样调
我有许多设备需要从中获取状态更新。我只需要一个套接字对象,而我只需要 socket.recv() 来获取状态。放入单线程应用程序,不会出现问题: class Device: def recei
在 C 中,我希望读取页面的 html,但我希望保存数据的缓冲区是动态的。我知道我必须通过循环和使用 realloc 来执行此操作但我不太确定我将如何去做。假设我的套接字( sock )已经打开,请考
这个循环应该逐行从套接字中获取数据并将其放入缓冲区。出于某种原因,当没有新数据返回时, recv 返回它得到的最后几行。我能够通过注释掉第一个 recv 来阻止这个错误,但是我不知道下一行会有多长时间
我是一名优秀的程序员,十分优秀!