gpt4 book ai didi

python - BeautifulSoup 和 HTML.parse 的问题

转载 作者:行者123 更新时间:2023-11-30 22:22:23 24 4
gpt4 key购买 nike

我正在尝试使用 Python Beautifulsoup 构建一个简单的页面抓取工具,每当我对 'td' 执行 FindALL 时,我都会得到 [ ] 的返回

这是我正在尝试抓取的页面:http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742

这是我的代码

import requests
import time
from bs4 import BeautifulSoup

theurl = "http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742"
thepage = requests.get(theurl)
soup = BeautifulSoup(thepage.text, "html.parser")
print(soup.findAll('td'))

当我查看网站的 HTML 时,我可以看到 td 标签,并且可以看到其中的数据,但我得到的唯一结果是 [ ]。我正在使用 Python 3.7 和 BeautifulSoup 4.6。

有什么想法吗?

最佳答案

某些网站会阻止请求的默认用户代理(pyhon-requests/version),或更改其响应内容。

theurl = "http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742"
thepage = requests.get(theurl)
print(thepage.request.headers['User-Agent'])
print(thepage.text)

python-requests/2.18.1

但是,您可以更改 header 中的用户代理字符串。

theurl = "http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742"
thepage = requests.get(theurl, headers={'User-Agent':'MyAgent'})
soup = BeautifulSoup(thepage.text, "html.parser")
print(soup.find_all('td'))

关于python - BeautifulSoup 和 HTML.parse 的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48331820/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com