gpt4 book ai didi

html - 为什么通过开发者工具查看的html和通过beautifulsoup获取的html不一样?

转载 作者:行者123 更新时间:2023-12-04 03:57:15 25 4
gpt4 key购买 nike

您好,我正在制作一个程序,当我输入特定关键字时相应地从 stackoverflow 中抓取作业。

为此,我需要知道输入特定关键字时的最大页数。但是通过开发者工具查看的html内容和通过beautifulsoup导入的html不一样,出现了问题。

比如我们把关键字叫做'vue'。

网址如下: https://stackoverflow.com/jobs?q=vue

通过开发者工具检查的页面数量为 2。 enter image description here

但是,如果输入以下代码并输出结果后检查页数,则最大页数为43。

from bs4 import BeautifulSoup
import requests
url = "https://stackoverflow.com/jobs?q=vue"
result = requests.get(url)
soup = BeautifulSoup(result.text,"html.parser")
print(soup)

enter image description here

我需要加载与 vue 相关的 2 个页面对应的内容,但我遇到了一个问题,不仅要抓取这些内容,还要抓取不相关的内容。

不知道哪里出了问题,所以才提问。任何帮助将不胜感激。

最佳答案

在请求 header 中,有一个名为 user-agent 的 header 标识哪个程序正在执行请求。 Read more

user-agent in request header

要假装从浏览器发出请求,您可以尝试将 user-agent header 设置为这个 Chrome 用户代理字符串:

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36

关于html - 为什么通过开发者工具查看的html和通过beautifulsoup获取的html不一样?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63653313/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com