gpt4 book ai didi

python - 如何使用 Beautifulsoup 解析网站

转载 作者:行者123 更新时间:2023-12-05 08:16:32 24 4
gpt4 key购买 nike

我是网络抓取的新手,我想获取页面的 html。但是当我运行该程序时,我得到 html 为空并且控制台显示 javascript

from bs4 import BeautifulSoup
import requests
import urllib

url = "https://linkedin.com/company/1005"

r = requests.get(url)
html_content = r.text
soup = BeautifulSoup(html_content,'html.parser')
print (soup.prettify())

error

最佳答案

问题不在于 BeautifulSoup,而是服务器需要请求中的更多信息才能让您访问此页面。现在它会发送 JavaScript 代码,将您重定向到登录页面。

您需要 User-Agent header 才能获取此页面。

您可以使用 http://httpbin.org/get在浏览器中查看 User-Agent

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent': 'Mozilla/5.0'}

url = "https://linkedin.com/company/1005"

r = requests.get(url, headers=headers)
print(r.text)

soup = BeautifulSoup(r.text, 'html.parser')
print(soup.prettify())

关于python - 如何使用 Beautifulsoup 解析网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40255128/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com