gpt4 book ai didi

python - 如果页面不需要 Javascript,是什么阻止了它?

转载 作者:可可西里 更新时间:2023-11-01 16:22:57 25 4
gpt4 key购买 nike

例如这个网址:http://websta.me/n/victoria.a3456

在请求中,除了照片和这些 div 中的所有内容(如他们的评论等)外,所有内容都会加载。但页脚和页眉(一直到照片)会加载,如他们的简历、个人资料图片等。

所以在浏览器中,我禁用了 javascript 并将用户代理设置为 python-requests/1.2.0。该页面在浏览器中仍能正常加载。

我不明白为什么它不会通过编程 HTTP 请求加载。

最佳答案

所以你有这样的代码:

import requests as req
site = req.get('http://websta.me/n/victoria.a3456')
print(site.text)

您可以像这样更改请求的 header 。

headers = {'':''}
site = req.get('http://websta.me/n/victoria.a3456', headers=headers)

html文件是引用其他文件的文件。它不是 zip 文件。那些其他文件(图像、视频等)未嵌入 html 文档中。 Web 服务器被指示为您提供 html 文档,并让浏览器找出如何从该 html 文件下载链接的文档。浏览器在后台做更多的工作。我建议查看 scrapy 以获取网站的其他元素。

您可以看到图片在站点中。文本只是发出第二次下载请求的问题。

import string
string.rfind(site.text, "https://scontent.cdninstagram.com/hphotos-xfa1/t51.2885-15/s320x320/e35/10838359_831976973588137_408868997_n.jpg")
>>>10039

关于python - 如果页面不需要 Javascript,是什么阻止了它?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34376519/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com