gpt4 book ai didi

python - beautifulsoup 网络爬虫问题 : can't find tables on webpage

转载 作者:太空宇宙 更新时间:2023-11-04 09:35:46 24 4
gpt4 key购买 nike

我想从 this 获取表格使用此代码的网站:

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

my_url = 'https://www.flashscore.pl/pilka-nozna/'
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
containers = page_soup.find_all('table', {'class': 'soccer'})

print(len(containers))

但是当我尝试通过 print(len(containers)) 检查我得到了多少表时,我得到了 0。有什么解决办法吗?

编辑: image of contained tables

最佳答案

页面可能是动态的。你可以使用 requests-html这允许您在拉取 html 之前让页面呈现,或者您可以使用 Selenium ,就像我在这里所做的那样。

这导致表 class="soccer"的 42 个元素

import bs4 
from selenium import webdriver

url = 'https://www.flashscore.pl/pilka-nozna/'

browser = webdriver.Chrome('C:\chromedriver_win32\chromedriver.exe')
browser.get(url)

html = browser.page_source
soup = bs4.BeautifulSoup(html,'html.parser')

containers = soup.find_all('table', {'class': 'soccer'})

browser.close()


In  [11]: print(len(containers))
42

关于python - beautifulsoup 网络爬虫问题 : can't find tables on webpage,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53832789/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com