gpt4 book ai didi

python - 我无法显示 html 代码 - Beautifulsoup

转载 作者:太空宇宙 更新时间:2023-11-04 11:20:41 27 4
gpt4 key购买 nike

(我是网络抓取的初学者)我想抓取这个链接: https://www.seloger.com/list.htm?tri=initial&idtypebien=1,2&pxMax=3000000&div=2238&idtt=2,5&naturebien=1,2,4&LISTING-LISTpg=2

当我尝试显示 repo_list 时,我得到的是 [] 而不是 html 代码!!!`

import requests
from bs4 import BeautifulSoup

page = requests.get('https://www.seloger.com/list.htm?tri=initial&idtypebien=1,2&pxMax=3000000&div=2238&idtt=2,5&naturebien=1,2,4&LISTING-LISTpg=2')
soup = BeautifulSoup(page.text, 'html.parser')
repo = soup.find(class_="c-wrap")
print(repo)
repo_list = repo.find_all(class_='c-pa-list c-pa-sl c-pa-gold cartouche ')
print(repo_list)

最佳答案

当您调用 find_all 时,它会将标签列表返回到 html 的子集,如果没有匹配的标签,则它会返回一个空列表。所以在页面中没有找到您要搜索的标签!这可能有多种原因。您可能在搜索的类中有错字,或者您搜索的值不是类而是 id 或其他属性。

有些页面(通常是较大的网络应用程序,如 facebook、instagram、twitter 等)也会动态创建类、id 等,并采取一些小技巧来防止其数据被抓取。如果您想查看某个网站允许您抓取哪些内容,您可以查看名为robots.txt 的内容。

例如,如果你想抓取 reddit,你可以去 https://reddit.com/robots.txt并查看您可以从他们的域中访问的 uri 列表!网站还将包含一个 sitemap,它是一个包含指向可用页面的链接的 xml(类似于 html)文档!

关于python - 我无法显示 html 代码 - Beautifulsoup,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56047324/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com