gpt4 book ai didi

python - Beautiful Soup

参数

转载 作者:行者123 更新时间:2023-11-28 21:42:40 24 4
gpt4 key购买 nike

我正在尝试打印出 donedeal 上每个项目的标题并从我自己的蜘蛛中复制代码,在 Over clockers 上完美运行并相应地更改代码:

导入请求从 bs4 导入 BeautifulSoup

def donedeal(max_pages):
for i in range(1, max_pages+1):
page = (i - 1) * 28
url = 'https://www.donedeal.ie/farming?sort=publishdate%20desc&start={}'.format(page) # http:/?...
source_code = requests.get(url)
plain_text = source_code.content
soup = BeautifulSoup(plain_text, "html.parser")
for title in soup("p", {"class": "card__body-title"}):
x = title.text
print(x)

donedeal(1)

页码是这样的:0, 28, 56.. 所以我必须在函数顶部相应地更改页码。

问题是什么都没有打印,我得到退出代码 0。提前致谢。Edit2:我正在尝试从“

Angus calves

”中刮取。

最佳答案

您需要在您的请求中指定一个不同的 User-Agent 以使其看起来像是一个真实的人(即 headers={'User-Agent': 'Mozilla/5.0'} )。一旦你这样做了,你的代码就会按预期工作。

from urllib.request import Request, urlopen
from bs4 import BeautifulSoup

def donedeal(max_pages):
for i in range(1, max_pages+1):
page = (i - 1) * 28
req = Request('https://www.donedeal.ie/farming?sort=publishdate%20desc&start={}'.format(page), headers={'User-Agent': 'Mozilla/5.0'})
plain_text = urlopen(req).read()
plain_text.decode('utf-8')
soup = BeautifulSoup(plain_text, "html.parser")
for title in soup("p", {"class": "card__body-title"}):
x = title.text
print(x)

donedeal(1)

关于python - Beautiful Soup <p> 参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43356405/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com