python - 我想使用 selenium 和 python 打开网站中的每个项目进行抓取-6ren

python - 我想使用 selenium 和 python 打开网站中的每个项目进行抓取

转载作者：太空宇宙更新时间：2023-11-03 20:28:52

25

4

我正在尝试打开一个网站进行抓取，即在打开一个产品的新选项卡后，它应该抓取，然后返回到原始选项卡，然后返回其他产品。我认为问题出在 Xpath 上，我使用了 xpath "//a[contains(@class,'prdLink')]"

这里我使用了xpath方法，但不知何故它没有打开页面

  chromeOptions = webdriver.ChromeOptions()
    chromeOptions.add_experimental_option('useAutomationExtension', False)
    driver = webdriver.Chrome(executable_path='C:/Users/ptiwar34/Documents/chromedriver.exe', chrome_options=chromeOptions, desired_capabilities=chromeOptions.to_capabilities())
    
    while True:
        try:
            driver.get("https://www.besse.com/pages/products-specialties/productsbyspecialty/allspecialties")
            my_hrefs = [my_elem.get_attribute("href") for my_elem in WebDriverWait(driver, 10).until(EC.visibility_of_all_elements_located((By.XPATH, "//a[contains(@class,'prdLink')]")))]
            windows_before  = driver.current_window_handle 
            for my_href in my_hrefs:
                driver.execute_script("window.open('" + my_href +"');")
                WebDriverWait(driver, 10).until(EC.number_of_windows_to_be(2)) 
                windows_after = driver.window_handles
                new_window = [x for x in windows_after if x != windows_before][0] 
                driver.switch_to.window(new_window) 
                time.sleep(3) 
                print(driver.title) 
                driver.close() 
                driver.switch_to.window(windows_before) 
        except TimeoutException:
            print("No more pages")
            break
    driver.quit()

它甚至无法打开单个项目，并且输出不再是页面

最佳答案

xpath 是正确的，问题是这些链接不可见。您需要扩展所有部分(并且您需要使用向下滚动来实现这一点)。

在这种情况下，更快的方法是解析页面源，而不是在此处使用 selenium。

from lxml import etree

driver.get("https://www.besse.com/pages/products-specialties/productsbyspecialty/allspecialties")

root = etree.HTML(driver.page_source)

# there is @href!='' in xpath because some hrefs contains empty string
my_hrefs = root.xpath(".//a[contains(@class,'prdLink') and @href!='']/@href")
for my_href in my_hrefs:
    # rest of your code

关于python - 我想使用 selenium 和 python 打开网站中的每个项目进行抓取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57648511/

25

4

0

文章推荐： c# - 如何将等 xml 标签格式更改为

文章推荐： c# - XElement 中的 XML 解析 ':'

文章推荐： python - 如何调用self方法并获取flask中的数据？

java - Intellij Idea - 打开/打开 "programming assists"
我开始学习 Oracle JavaSE 认证考试。我创建了一个 IntelliJ Idea 项目来处理我的训练源代码。我想尽量减少 IntelliJ Idea 的帮助。我只想使用:颜色语法、终端选
delphi - 打开 Delphi 项目文件 - 打开 DPR 而不是现有的 DPROJ 文件有什么缺点吗？
默认情况下，.DPR 和 .DPROJ 的文件扩展名描述是相同的，因此在资源管理器中打开具有相同基本名称的项目文件时，两个文件描述都会列为“Delphi 项目文件”，这提供了一个选择开发人员 - 要打
android - 将(打开/关闭)按钮添加到(打开/关闭)抽屉导航的 Activity
我目前正在从 android 网站了解 Navigation Drawer，我正在使用他们的示例 http://developer.android.com/training/implementing-
vba - 打开/关闭标志以更改名称
我需要帮助。我在 A3:A500 列中有单词和数字我需要改变他们的名字。如果单元格包含单词“previ”，则如果单元格是数字，则将字母“p”放入新列中。如果它是一个词，那么不要放“p” ...就
VBA EXCEL在特定行上方添加空行[打开]
我正在尝试编写一些 VBA，它允许按钮添加一个空行，保持相同的格式，就在 SUM 公式所在的行上方。到目前为止，我实现了创建一个空行，但我不知道如何实现代码以让该新行继承相同的格式样式(包括边框和格
excel - 打开/关闭工作簿并刷新连接
我在共享网络驱动器上有两个工作簿: 工作簿 A(表) 工作簿 B(数据透视表 - 连接到源工作簿 A) 我正在尝试，当打开 Workbook B 时，运行宏并执行以下操作: 取消保护工作簿 B 上的某
iPad模拟器+打开/关闭互联网
我正在开发一个需要在在线/离线模式下进行测试的应用程序，所以我想知道是否有任何方法可以打开/关闭 iPad 模拟器的互联网连接(不关闭我的 MAC 的互联网服务)。请帮忙最佳答案不，模拟器使用与您
perl - 打开/操作目录中所有文件的最有效方法是什么？
我需要对目录的所有文件执行我的脚本(搜索)。以下是有效的方法。我只是问哪个最好。 (我需要格式的文件名:parsedchpt31_4.txt) 全局: my $parse_corpus; #(for
iphone - 打开 'DEBUG'宏值
在我的代码中，我想有条件地执行一些操作: #ifdef DEBUG NSLog(@"I'm in debug mode"); #endif 我已配置“项目”->“编辑项目设置”->“构建”选项卡，以便
c# - 打开/关闭编译器优化标志的CPU密集型应用程序
我编写了一个小程序来比较笔记本电脑的性能。为了使程序CPU更加密集，我用一些多线程代码(通过Parallel API实现)实现了Rabin-Karp模式匹配算法。我注意到，当在关闭编译器优化标志的情
javascript - 模态关闭/打开
使用以下代码来关闭模态并打开第二个模态。总是遇到同样的问题可以关闭一个但不能打开第二个，或者如果我更改顺序我可以打开一个但不能关闭另一个。 (我想我已经尝试过101版本了)。如果有人能帮忙的话。
javascript - 打开/关闭鼠标悬停时显示的标题
blue sky 默认情况下，当指针悬停时显示标题。是否可以切换它，例如: $('#button').on('click', function(){ if (something) {turn
vba - 打开、保存和关闭任何文件
我正在编写一个简单的宏，它将打开、保存和关闭一个 Excel 文件(例如 myworkbook.xlsx)，但我无法执行此操作。我的文件 myworkbook.xlsx 位于以下位置: C:\User
leaflet - 打开/关闭图层时图层顺序发生变化
我正在加载两个 geoJson 层 - 出于测试目的，两个层都是相同的数据，但是是从两个不同的 json 文件中提取的。当我在图层 Controller 中打开和关闭图层时，图层的绘制顺序会发生变化。
java - 打开/关闭声音按钮不起作用
我在我的设置 Activity 中发现，当用户单击 ToggleButton 时，它应该在整个应用程序中静音，但它不起作用。我在教程类中放入的 SoundPool onClick 按钮声音仍在 onC
java - 打开/关闭给定网络的飞行模式。
我有一部双卡手机。如果我想打开飞行模式，两个 SIM 卡都会发生这种情况。是否可以通过编程方式仅对一张SIM卡进行操作(用户可以选择两者之一)？我看到了here上的帖子，他们一直工作到 API 16
c - 打开()一个文件并在最后写入
我目前正在开发一个带有一些 pipe() 和重定向的 C shell 程序。我使用 dup2() stdout 和 stderr (1 & 2) 重定向。当我用 int fd = open("te
jquery - 打开/另存为对话框
Jquery: 有没有办法捕获浏览器打开“打开/另存为”对话框时触发的事件？ Open/Save dialog example http://qpack.orcanos.com/helpcenter/
javascript - 如何关闭窗口.打开
我知道你可以用 window.close 关闭 window.open 但还有其他方法吗？我有一个打开 facebook 连接的弹出窗口，我想在用户连接到 facebook 时关闭弹出窗口，然后刷新父
c# - 打开/关闭显示电源时触发的事件
我搜索一个事件，如果不存在，则搜索一种方法来了解屏幕是否关闭(电源选项 - 控制面板 - 关闭显示设置)。这些解决方案都不适合我。所以要么我在某个地方错了，要么就是不合适。 How to get

首页

博学

6Ren·AI

商城

python - 我想使用 selenium 和 python 打开网站中的每个项目进行抓取