gpt4 book ai didi

python - 使用 urllib 检索所有 header 数据

转载 作者:行者123 更新时间:2023-11-28 16:47:09 25 4
gpt4 key购买 nike

我搜集了很多网站,经常想知道为什么 Firebug 中显示的响应 header 和 urllib.urlopen(url).info() 返回的响应 header 在 Firebug 报告中经常不同更多标题。

我今天遇到了一个有趣的问题。在重定向到最终页面之前,我通过遵循完全加载(返回 200 状态代码)的“搜索 url”来抓取网站。执行抓取的最简单方法是返回 Location 响应 header 并发出另一个请求。但是,当我运行“urllib.urlopen(url).info()”时,该特定 header 不存在。

这是区别:

Firebug header :

Cache-Control : no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Connection : keep-alive
Content-Encoding : gzip
Content-Length : 2433
Content-Type : text/html
Date : Fri, 05 Oct 2012 15:59:31 GMT
Expires : Thu, 19 Nov 1981 08:52:00 GMT
Location : /catalog/display/1292/index.html
Pragma : no-cache
Server : Apache/2.0.55
Set-Cookie : PHPSESSID=9b99dd9a4afb0ef0ca267b853265b540; path=/
Vary : Accept-Encoding,User-Agent
X-Powered-By : PHP/4.4.0

我的代码返回的 header :

Date: Fri, 05 Oct 2012 17:16:23 GMT
Server: Apache/2.0.55
X-Powered-By: PHP/4.4.0
Set-Cookie: PHPSESSID=39ccc547fc407daab21d3c83451d9a04; path=/
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Vary: Accept-Encoding,User-Agent
Content-Type: text/html
Connection: close

这是我的代码:

from BeautifulSoup import BeautifulSoup
import urllib
import psycopg2
import psycopg2.extras
import scrape_tools


tools = scrape_tools.tool_box()
db = tools.db_connect()

cursor = db.cursor(cursor_factory = psycopg2.extras.RealDictCursor)
cursor.execute("SELECT data FROM table WHERE variable = 'Constant' ORDER BY data")

for row in cursor:
url = 'http://www.website.com/search/' + row['data']
headers = {
'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding' : 'gzip, deflate',
'Accept-Language' : 'en-us,en;q=0.5',
'Connection' : 'keep-alive',
'Host' : 'www.website.com',
'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20100101 Firefox/15.0.1'
}
post_params = {
'query' : row['data'],
'searchtype' : 'products'
}
post_args = urllib.urlencode(post_params)
soup = tools.request(url, post_args, headers)

print tools.get_headers(url, post_args, headers)

请注意:scrape_tools 是我自己写的模块。模块中包含的用于检索 header 的代码(基本上)如下:

class tool_box:
def get_headers(self, url, post, headers):
file_pointer = urllib.urlopen(url, post, headers)
return file_pointer.info()

有差异的原因吗?我在我的代码中犯了一个愚蠢的错误吗?如何检索丢失的 header 数据?我是 Python 的新手,所以请原谅任何愚蠢的错误。

提前致谢。非常感谢任何建议!

另外...抱歉代码墙=\

最佳答案

对于这两个请求,您不会得到相同类型的响应。例如,对 Firefox 请求的响应包含一个 Location: header ,因此它可能是一个 302 Moved temporary301。这些不包含任何实际的正文数据,而是让您的 Firefox 向 Location: header 中的 URL 发出第二个请求(urllib 不这样做)。

Firefox 响应也使用 Connection : keep-alive 而 urllib 请求得到了 Connection: close 的回答。

此外,Firefox 响应是 gzip 压缩的(Content-Encoding : gzip),而 urllib 则不是。这可能是因为您的 Firefox 在其请求中发送了一个 Accept-Encoding: gzip, deflate header 。

不要依赖 Firebug 来告诉您 HTTP header (即使它大部分时间都是如此),而是使用像 wireshark 这样的嗅探器检查网络上发生了什么实际

您显然要处理两种不同的响应。

这可能有多种原因。其一,Web 服务器应该根据Accept-LanguageAccept-Encoding header 等做出不同的响应。客户端在其要求。然后服务器也有可能进行某种 User-Agent 嗅探。

无论哪种方式,使用 urllib 捕获您的请求以及使用 wireshark 的 Firefox 请求并首先比较请求(不是 header ,而是实际的 GET/HTTP/1.0 部分。它们真的相同吗?如果是,继续比较请求 header 并开始手动设置相同的 header urllib 请求,直到您找出哪些 header 有所不同。

关于python - 使用 urllib 检索所有 header 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12751536/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com