gpt4 book ai didi

javascript - 使用 BS4 python 单击并抓取 aspx 页面

转载 作者:行者123 更新时间:2023-11-28 16:40:18 25 4
gpt4 key购买 nike

我试图通过点击一个按钮来抓取网站。我尝试使用 Firebug 和谷歌浏览器控制台。为了避免点击按钮,我无法捕捉到它发送的请求。单击以下 URL 中的搜索按钮时,我只看到请求的两个 .js 文件

http://www.icsi.edu/Facilities/MembersDirectory.aspx

最佳答案

我认为处理此问题的最简单方法是使用 Selenium 的 WebDriver

链接:http://www.seleniumhq.org/docs/03_webdriver.jsp#introducing-webdriver

如果你安装了pip,一个简单的

pip install selenium

应该可以。我建议使用 Firefox 作为您的浏览器。

您可以使用 Selenium 下载页面,然后使用 BS4 对其进行解析。这是一个简单的脚本,它将“Foo”和“Bar”输入到表单中,然后单击“搜索”按钮。

from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.icsi.edu/Member/MembersDirectory.aspx")
# Alternatively, link directly to the form:
# driver.get("https://www.icsi.in/student/Members/MemberSearch.aspx?SkinSrc=%5BG%5DSkins/IcsiTheme/IcsiIn-Bare&ContainerSrc=%5BG%5DContainers/IcsiTheme/NoContainer")

# Locate the elements.
first = driver.find_element_by_id("dnn_ctr410_MemberSearch_txtFirstName")
last = driver.find_element_by_id("dnn_ctr410_MemberSearch_txtLastName")
search = driver.find_element_by_id("dnn_ctr410_MemberSearch_btnSearch")

# Input the data and click submit.
first.send_keys("Foo")
last.send_keys("Bar")
search.click()

作为奖励,以下是遍历结果页面的方法:

# next_page should be redeclared every time you visit a new page.
next_page = driver.find_element_by_class_name("rgPageNext")
next_page.click()

关于javascript - 使用 BS4 python 单击并抓取 aspx 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20094378/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com