gpt4 book ai didi

python - 使用 BeautifulSoup 和 Selenium 解析 HTML 内容

转载 作者:太空宇宙 更新时间:2023-11-03 16:38:43 24 4
gpt4 key购买 nike

from selenium import webdriver
from selenium.webdriver.support.ui import Select
from bs4 import BeautifulSoup
import csv
import requests
import re

driver2 = webdriver.Chrome()
driver2.get("http://www.squawka.com/match-results?ctl=10_s2015")

soup=BeautifulSoup(driver2.page_source)

print soup

driver2.quit()

我正在尝试获取每个“td”、“Class”:“Match Centre”的 HREF,并且我需要使用 selenium 来浏览页面,但我正在努力将两者合并,以便我可以更改菜单选项并浏览不同的页面,同时将链接输入到我的其他代码中。

我已经研究并尝试了 ('inner-html') 和当前代码中的 page.source,但它没有获得我需要的任何网络链接。

有没有人有解决方案来获取这些链接并在页面上导航。有没有办法获取这个页面的XML来获取所有的链接?

最佳答案

不知道为什么你需要BeautifulSoup(BS)。仅 Selenium 就能够定位元素并通过页面上的链接进行导航。例如,要获取比赛详细信息页面的所有链接,您可以执行以下操作:

>>> matches = driver.find_elements_by_xpath("//td[@class='match-centre']/a")
>>> print [match.get_attribute("href") for match in matches]

对于页面导航,您可以使用以下 XPath :

//span[contains(@class,'page-numbers')]/following-sibling::a[1]

上面的 XPath 找到下一页的链接。要浏览所有页面,您可以尝试使用 while 循环;当找到下一页的链接时:

  1. 对链接执行点击操作,
  2. 从当前页面获取所有href
  3. 找到下一页链接。

关于python - 使用 BeautifulSoup 和 Selenium 解析 HTML 内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37001877/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com