gpt4 book ai didi

python - urllib2 python (传输编码 : chunked)

转载 作者:太空狗 更新时间:2023-10-30 01:38:33 25 4
gpt4 key购买 nike

我使用以下 python 代码下载 html 页面:

response = urllib2.urlopen(current_URL)
msg = response.read()
print msg

对于像 this one 这样的页面, 它打开 url 没有错误,但随后只打印部分 html 页面!

在以下几行中,您可以找到 html 页面的 http header 。我认为问题是由于“Transfer-Encoding: chunked”引起的。

似乎 urllib2 只返回第一个 block !我很难阅读剩余的 block 。我如何读取剩余的 block ?

Server: nginx/1.0.5
Date: Wed, 27 Feb 2013 14:41:28 GMT
Content-Type: text/html;charset=UTF-8
Transfer-Encoding: chunked
Connection: close
Set-Cookie: route=c65b16937621878dd49065d7d58047b2; Path=/
Set-Cookie: JSESSIONID=EE18E813EE464664EA64086D5AE9A290.tpdjo13v_3; Path=/
Pragma: No-cache
Cache-Control: no-cache,no-store,max-age=0
Expires: Thu, 01 Jan 1970 00:00:00 GMT
Vary: Accept-Encoding
Content-Language: fr

最佳答案

我发现如果我指定了 Accept-Language header ,那么服务器不会断开 TCP 连接,否则它会断开。

curl -H "Accept-Language:uk,en-US;q=0.8,en;q=0.6,ru;q=0.4" -v 'http://www.legifrance.gouv.fr/affichJuriJudi.do?oldAction=rechJuriJudi&idTexte=JURITEXT000024053954&fastReqId=660326373&fastPos=1'

关于python - urllib2 python (传输编码 : chunked),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15115606/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com