python-3.x - 如何单击 "Next"按钮直到它不再存在

python-3.x - 如何单击 "Next"按钮直到它不再存在 - Python、Selenium、Requests

转载作者：行者123 更新时间：2023-12-04 00:00:23

26

4

我正在从分页的网页中抓取数据，抓取完一页后，我需要单击下一步按钮并继续抓取下一页。然后，一旦我抓取了所有页面并且下一个按钮不再存在，我就需要停止。下面包含我需要单击的“下一步”按钮周围的 html。

<tr align="center"> 
   <td colspan="8" bgcolor="#FFFFFF">
     <br> 
     <span class="paging">
       <b> -- Page 1 of 3 -- </b>
     </span>
     <p>
       <span class="paging"> 
         <a href="page=100155&amp;by=state&amp;state=AL&amp;pagenum=2"> .          
           <b>Next -&gt;</b>
         </a> 
           &nbsp;&nbsp;
       </span> 
       <span class="paging"> 
         <a href=" page=100155&amp;by=state&amp;state=AL&amp;pagenum=3">Last -&gt;&gt;</a> 
       </span>
     </p>
   </td>
</tr>

我尝试过选择类和链接文本，但在我目前的尝试中两者都不适合我。

我的代码的 2 个示例:

while True:
    try:
        link = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.LINK_TEXT, "Next ->"))).click()
    except TimeoutException:
        break

while True:
        try:
            link = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.CLASS_NAME, "paging"))).click()
        except TimeoutException:
            break

我在网上找到的所有解决方案都没有奏效，主要以以下错误结束:

ElementClickInterceptedException: Message: element click 
intercepted: Element <a href="? 
page=100155&amp;by=state&amp;state=AL&amp;pagenum=2">...</a> is not 
clickable at point (119, 840). Other element would receive the 
click: <body class="custom-background hfeed" style="position: 
relative; min-height: 100%; top: 0px;">...</body>
(Session info: chrome=76.0.3809.132)

如果错误代码的其余部分有助于审查，请告诉我，我会用这个错误更新帖子。

我查看了以下资源，但都无济于事:

Python Selenium clicking next button until the end

python - How to click "next" in Selenium until it's no longer available?

Python Selenium Click Next Button

Python Selenium clicking next button until the end

Selenium clicking next button programmatically until the last page

How can I make Selenium click on the "Next" button until it is no longer possible?

任何人都可以提供有关如何选择“下一步”按钮(如果存在)并使用这组 HTML 转到下一页的建议吗？如果您需要对请求进行任何进一步说明，请告诉我。

最佳答案

我们可以通过使用两个主要库的解决方案来解决这个问题 - selenium 和 requests。

方法 - 每次都抓取页码和下一页链接的页面

使用 Selenium(如果网站是动态的)

我们可以检查我们所在的页面是否是最后一页，如果不是最后一页，我们可以检查下一个按钮(假设网站在所有页面中都遵循相同的html结构进行分页)

stop = False
driver.get(url)
while not stop:
    paging_elements = driver.find_elements_by_class_name("paging")
    page_numbers = paging_elements[0].text.strip(" -- ").split("of")

    ## Getting the current page number and the final page number

    final = int(page_numbers[1].strip())
    current = int(page_numbers[0].split("Page")[-1].strip())

    if current==final:
        stop=True
    else:
        next_page_link = paging_elements[-2].find_element_by_name("a").get_attribute('href')
        driver.get(next_page_link)
        time.sleep(5) # This gap can be changed as per the load time of the page

使用 Requests 和 BS4(如果网站是静态的)

import requests

r = requests.get(url)
stop = False
while not stop:
    soup = BeautifulSoup(r.text, 'html.parser')

    paging_elements = soup.find_all('span', attrs={'class': "paging"})
    page_numbers = paging_elements[0].text.strip(" -- ").split("of")

    ## Getting the current page number and the final page number

    final = int(page_numbers[1].strip())
    current = int(page_numbers[0].split("Page")[-1].strip())

    if current==final:
        stop=True
    else:
        next_page_link = paging_elements[-2].find("a").get('href')
        r = request.get(next_page_link)

替代方法

一种方法是使用网站本身的 URL 而不是按钮单击过程，因为在这种情况下按钮单击会被拦截。

大多数网页都在其 URL 中添加了 page 属性(对于 >=2 的页面可见)。因此，分页网站可能具有如下 URL:

www.targetwebsite.com/category?page_num=1

www.targetwebsite.com/category?page_num=2

www.targetwebsite.com/category?page_num=3

等等。

在这种情况下，可以简单地迭代页码直到最终页码(如最初在建议的答案中所示)。这种方法消除了目标网站更改 CSS 布局/样式的破坏可能性。

此外，可能需要通过附加基本 URL 来创建 next_page_link，就像在另一个问题(第 40-41 行)中为 next_url 所做的那样:

next_url = next_link.find("a").get("href")

r = session.get("https://reverb.com/marketplace" + next_url)

希望对您有所帮助!

关于python-3.x - 如何单击 "Next"按钮直到它不再存在 - Python、Selenium、Requests，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57876752/

26

4

0

文章推荐： Perl 一行 if 语句

文章推荐： javascript - 传单:是否可以自定义缩放级别？

文章推荐： javascript - 购物车输入未在 Stripe 表单中正确显示

selenium - Selenium IDE、Selenium RC 和 Selenium WebDriver 之间有什么区别？
Selenium IDE、Selenium RC 和 Selenium WebDriver 有什么区别；我们可以在什么样的项目中使用它们？任何建议将不胜感激。最佳答案 Selenium IDE 是一
selenium - 如何压缩 Selenium 客户端和 Selenium 服务器之间的传输
我的 Selenium 服务器在远程服务器上运行。我从我的本地 PC 启动我的 Selenium 脚本，它从网站获取数据。例如，我的 Selenium 脚本执行这段 JS 代码: JSON.stri
selenium - "//div[.//a[text()=' SELENIUM'] ]"and "//div[//a[text() ='SELENIUM' ]]"在 Selenium xpath中有什么区别
Selenium 中“//div[.//a[text()='SELENIUM']]”和“//div[//a[text()='SELENIUM']]”有什么区别xpath。有人可以澄清我在 xpath
selenium - Selenium 中每个测试的多个断言与单个断言？
我正在创建自动冒烟测试。我读到在单元测试中使用多个断言不是一个好的做法，这条规则是否也适用于使用 selenium 的 webdriver 测试？在我的冒烟测试中，有时我会使用 20 多个断言来验证
selenium - selenium IDE中添加两个变量
我在一个变量中存储了一个值，在另一个变量中存储了第二个值，现在我想将这两个数字相加。我无法做到这一点，我尝试过下面的代码，但它不起作用 store 6 w sto
selenium - Selenium 中回车键和回车键的区别
Selenium 中的回车键和回车键有什么区别？ This related SO answer并且提供的链接说明它们是不同的。我还注意到，在使用 Firefox 24.2 时，回车键将发送一个 HTM
selenium - 如何使用 Selenium 3 设置 Selenium Grid
以下是我遇到异常的详细信息: 当我使用以下命令启动节点时，出现如下错误: F:\SeleniumGrid\Jars>java -jar selenium-server-standalone-3.0.0
selenium - 是否有 Selenium 2 版本的 Selenium IDE？
我是的新手 Selenium 我对版本号有点困惑。 Selenium 2.0 2011年发布。我刚刚下载了 Selenium IDE Firefox 扩展，版本为 1.7.2 .是否还有 IDE 的
selenium - 我如何停止断言失败时关闭浏览器窗口的代码接收/ Selenium ？
我正在使用 Selenium 运行Codeception 2。我可以看到 Selenium 打开了浏览器并运行了测试。然后，我从代码接收中得到一个错误，即存在失败的断言。我知道有一个HTML文件可以
selenium - Selenium 3的新功能是什么
Closed. This question needs to be more focused。它当前不接受答案。想要改善这个问题吗？更新问题，使它仅关注editing this post的一个问题。
selenium - Selenium 运行中如何关闭弹出窗口？
我想关闭弹出窗口(已知的窗口名称)，然后返回到原始窗口。我该怎么办？如果我无法获得窗口中关闭按钮的常量。那么有没有达到目标的一般行为？最佳答案你有没有尝试过: selenium.Close()
selenium - 错误后如何继续使用webdriver/selenium
我正在用webdriver做一个测试机器人。我有一个场景，它单击一个按钮，打开一个新窗口，并且它通过特定的xpath搜索元素，但是有时没有这样的元素，因为可以将其禁用，并且出现此错误：org.open
selenium - Selenium :如何等待选择中的选项被填充？
我是第一次使用Selenium，对这些选项不知所措。我在Firefox中使用IDE。当我的页面加载时，它随后通过JSONP请求获取值，并在其中填充选择中的选项。我如何让Selenium等待选择中的
selenium-webdriver - 如何在运行 Selenium Selenium nightwatch.js测试时保持打开的开发人员工具？
我开始使用nightwatch.js编写e2e测试，我注意到我想在目标浏览器的控制台（开发人员工具）中手动检查一些错误。但总是在我打开开发者控制台时，浏览器会自动关闭它。这是selenium还是nig
selenium - Selenium 没有这种元素异常
我正在尝试使用以下方式刮除Glassdoor的评论: https://github.com/MatthewChatham/glassdoor-review-scraper 但是我得到了错误并且不知道如
selenium - Selenium Grid总是执行我的测试的多余实例
背景我设置了一个Selenium Grid项目，以在两种不同的浏览器Chrome和Firefox中执行测试。我正在使用Gradle执行测试。该测试将成功执行两次，一次按预期在Chrome中执行，一次
selenium - 使用 phpunit/selenium 保持 selenium 浏览器打开
当测试失败时，运行 selenium 测试的浏览器将关闭。这在尝试调试时没有帮助。我知道我可以在失败时选择屏幕截图，但如果没有整个上下文，这并没有帮助。在浏览器仍然可用的情况下，我可以回击并检查发生了
selenium - 使用 Selenium Web 驱动程序或 selenium RC
使用 Selenium Web 驱动程序而不是 Selenium RC 启动新的测试框架是个好主意吗？对于 Selenium Web 驱动程序，并非所有 Selenium 方法都已实现。那么使用 Se
selenium - Selenium 标识符的建议命名约定
我使用 selenium 页面对象模型来定义所有页面元素。我对元素命名所遵循的命名约定不太相信，并且感觉太长了。请对此提出建议。 @FindBy(xpath = "//tbody[@id='tabvi
selenium - 等待处理程序注册 - selenium
有一个带有按钮的 html 页面，我的 Selenium 测试正在测试，当单击按钮时，会执行一个操作。问题是，看起来点击发生在 javascript 执行之前 - 在处理程序绑定(bind)到页面之

首页

博学

6Ren·AI

商城