python - headless Chrome 驱动程序不适用于 Selenium-6ren

python - headless Chrome 驱动程序不适用于 Selenium

转载作者：行者123 更新时间：2023-12-05 04:55:06

24

4

当我设置 options.add_argument("--headless") 时，我的爬虫目前遇到问题。但是，当它被移除时它工作得很好。谁能告诉我如何使用 headless 模式实现相同的结果？

下面是我的python代码:

from seleniumwire import webdriver as wireDriver
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.chrome.options import Options
    
chromedriverPath = '/Users/applepie/Desktop/chromedrivermac'

    def scraper(search):

    mit = "https://orbit-kb.mit.edu/hc/en-us/search?utf8=✓&query="  # Empty search on mit site
    mit += "+".join(search) + "&commit=Search"
    results = []

    options = Options()
    options.add_argument("--headless")
    options.add_argument("--window-size=1440, 900")
    driver = webdriver.Chrome(options=options, executable_path= chromedriverPath)

    driver.get(mit)
    # Wait 20 seconds for page to load
    timeout = 20
    try:
        WebDriverWait(driver, timeout).until(EC.visibility_of_element_located((By.CLASS_NAME, "header")))
        search_results = driver.find_element_by_class_name("search-results")
        for result in search_results.find_elements_by_class_name("search-result"):
            resultObject = {
                "url": result.find_element_by_class_name('search-result-link').get_attribute("href")
            }
            results.append(resultObject)
        driver.quit()
    except TimeoutException:
        print("Timed out waiting for page to load")
        driver.quit()

    return results

这也是我在 get() 之后 print(driver.page_source) 时的截图:

最佳答案

这个截图...

screenshot

...暗示 Cloudflare已检测到您对网站的请求是自动机器人，随后拒绝您访问该应用程序。

解决方案

在这些情况下，一个潜在的解决方案是使用 undetected-chromedriver在 headless初始化 google-chrome-headless 的模式浏览上下文。

undetected-chromedriver是一个优化的 Selenium Chromedriver 补丁，它不会触发像 Distill Network/Imperva/DataDome/Botprotect.io 这样的反机器人服务。它会自动下载驱动程序二进制文件并对其进行修补。

代码块:

import undetected_chromedriver as uc
from selenium import webdriver

options = webdriver.ChromeOptions() 
options.headless = True
driver = uc.Chrome(options=options)
driver.get(url)

引用资料

您可以在以下位置找到一些相关的详细讨论:

关于python - headless Chrome 驱动程序不适用于 Selenium，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65585702/

24

4

0

文章推荐： python - python中的不可继承方法

文章推荐： javascript - 刷新长期访问 token 端点是否在 2021 年工作？

文章推荐： swift - 在 RealityKit 中播放 USDZ 动画

java - Firefox headless (headless)在 headless (headless) Redhat Linux 机器上崩溃
我正在尝试使用 firefox headless 在 headless (headless) redhat linux 构建机器上运行 selenium 测试。我创建驱动程序的方法如下所示: priv
python - 带 Selenium 的 headless (headless) Chrome ，只能找到滚动非 headless (headless)的方法
关于这个主题有很多东西可以找到，但无法弄清楚。我需要滚动到(不太长)无限滚动页面的末尾。我有 2 个选项可以使用 chrome 非 headless (headless)但似乎不能 headless
headless - 如何正确编译 ParaView 以进行 headless (headless)离屏渲染？
我在远程服务器上运行 OpenFOAM，基本上设法通过 paraview 的 pvserver 可视化结果 as described here .然而，在连接后，客户端产生 Server DISPLA
headless (headless)模式下的Android屏幕截图很难看
我想在 headless 模式下截取 Android 设备的屏幕截图，也就是说我是这样创建的: echo no | /opt/android/android-sdk-linux/tools/andro
selenium - headless (headless)浏览器在自动化方面的差异
主要区别在于，基于GUI和非GUI（Headless）执行。我正在寻找所有Headless浏览器之间的差异，但是很遗憾，我没有找到任何差异。我一个接一个地经历，这使我更加困惑。如果有人可以分享具有差
linux - OpenOffice headless (headless)
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭10 年前。 Improve th
Java headless (headless)双三次图像调整大小
我需要在没有 X 服务器的情况下执行 java 图像裁剪和调整大小。我尝试了几种方法。下面的第一种方法有效，但输出了一个相当难看的调整大小的图像(可能使用最近邻算法来调整大小: static Buf
Python - Firefox headless (headless)
过去几天我一直在使用 Selenium、Tor 和 Firefox 作为多个任务的组合。我已经设法用 Python 编写了一个简单的脚本，它通过 Selenium 控制 Firefox，而 Firef
python - Pygame headless (headless)设置
我正在使用 pygame 的操纵杆 api 在 headless (headless)系统上对我的项目使用操纵杆，但是 pygame 需要一个“屏幕”，所以我设置了一个虚拟视频系统来克服这个问题。它工
firefox - 截图后不存在 headless (headless)Firefox
我想使用 headless firefox 在 macos 上捕获网页的图像。这是我执行的命令:/Applications/Firefox.app/Contents/MacOS/firefox-bi
php - headless (headless) Chromium 浏览器始终显示验证码
我正在使用带有 headless-chromium-php 的 google chrome headless (headless)浏览器导航到某些网站，但它总是被验证码检测到我尝试使用此 plug
terminal - 使用 Octave headless (headless)
是否有可能使用 Octave headless。像这样的东西 octave result.txt 最佳答案使用 octave --silent --eval 5+4 > result.txt 你会
android - 在 headless (headless)模式下获取本地化字符串
我目前正在尝试在 headless (headless)模式下运行应用程序，我定义了后台回调: void callbackInBackground() { // Invoked from the s
opengl - 在 headless (headless)LibGDX单元测试中创建纹理
我正在使用LibGDX headless backend运行jUnit测试。这在某些测试中效果很好，但是如果我尝试创建new Texture('myTexture.png');，则会收到NullPoi
Selenium 只能在非 headless (headless)模式下工作吗？
我想在这个页面上使用 Selenium:https://www.avis.com/en/home 如果没有 headless (headless)模式，该代码一切正常: import requests
jasmine - Jasmine headless (headless)Webkit中更好的故障报告
在Jasmine headless (headless)Webkit中运行测试时，我遇到了一个简单的TypeError: 'undefined' is not an object失败。但是没有提示在哪
firefox - 真正的 headless (headless)浏览器
我负责测试一个大量使用 AJAX 的企业 Web 应用程序。我需要构建一个系统，允许在没有人工干预的情况下连续运行测试。目前我最感兴趣的是负载测试，但我希望用于生成负载的相同脚本用于功能测试。目前用
docker - headless Docker主机与 headless 容器
TL; DR:我可以配置一个容器来原生访问VGA，以覆盖主机视频输出吗？我正在考虑处置低功耗的XenServer(以前为ESXi)白盒以设置docker最小安装(例如CoreOS，RancherOs
docker - headless (headless) Protractor 不分片测试
我正在尝试 headless (headless)运行我的测试，并将我的两个测试套件分片以并行运行它们。在我的本地计算机上，它们并行运行，但在这种 headless (headless)设置中，它们一
eclipse - 是否有一种 headless (headless)方式来导入项目并刷新工作区？
仍在尝试为大型大学项目(RCP 产品)建立 headless (headless)构建。每个 Eclipse 用户都知道以下手动功能:“文件 --> 导入 --> 将现有项目导入工作区”以及“构建工

首页

博学

6Ren·AI

商城