python - 在 Python 中截取 url 的更好方法-6ren

python - 在 Python 中截取 url 的更好方法

转载作者：行者123 更新时间：2023-12-03 21:22:02

25

4

问题描述

目前正在从事一个项目，该项目需要我浏览一个 url 并截取网页的屏幕截图。

在查看了各种资源后，我找到了 3 种方法。我将提到我目前使用的所有 3 种方法。

方法 - 1:PhantomJS

from selenium import webdriver
import time
import sys

print 'Without Headless'
_start = time.time()
br = webdriver.PhantomJS()
br.get('http://' + sys.argv[1])
br.save_screenshot('screenshot-phantom.png')
br.quit
_end = time.time()
print 'Total time for non-headless {}'.format(_end - _start)

方法 2: headless (headless)浏览器

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

print 'Headless'
_start = time.time()
options = Options()
options.add_argument("--headless") # Runs Chrome in headless mode.
options.add_argument('--no-sandbox') # # Bypass OS security model
options.add_argument('start-maximized')
options.add_argument('disable-infobars')
options.add_argument("--disable-extensions")
driver = webdriver.Chrome(chrome_options=options, executable_path='/usr/bin/chromedriver')
driver.get('http://' + sys.argv[1])
driver.save_screenshot('screenshot-headless.png')
driver.quit()
_end = time.time()
print 'Total time for headless {}'.format(_end - _start)

方法 - 3 :PyQT

import argparse
import sys
import logging
import sys
import time
import os

import urlparse
from selenium import webdriver
from PyQt4.QtCore import *
from PyQt4.QtGui import *
from PyQt4.QtWebKit import *

class Screenshot(QWebView):
    def __init__(self):
        self.app = QApplication(sys.argv)
        QWebView.__init__(self)
        self._loaded = False
        self.loadFinished.connect(self._loadFinished)

    def capture(self, url, output_file):
        _logger.info('Received url {}'.format(url))
        _start = time.time()
        try:
            #Check for http/https
            if url[0:3] == 'http' or url[0:4] == 'https':
                self.url = url
            else:
                url = 'http://' + url
            self.load(QUrl(url))
            self.wait_load(url)
            # set to webpage size
            frame = self.page().mainFrame()
            self.page().setViewportSize(frame.contentsSize())
            # render image
            image = QImage(self.page().viewportSize(), QImage.Format_ARGB32)
            painter = QPainter(image)
            frame.render(painter)
            painter.end()
            _logger.info('Saving screenshot {} for {}'.format(output_file,url))
            image.save(os.path.join(os.path.dirname(os.path.realpath(__file__)),'data',output_file))
        except Exception as e:
            _logger.error('Error in capturing screenshot {} - {}'.format(url,e))
        _end = time.time()
        _logger.info('Time took for processing url {} - {}'.format(url,_end - _start))

    def wait_load(self,url,delay=1,retry_count=60):
        # process app events until page loaded
        while not self._loaded and retry_count:
            _logger.info('wait_load for url {} retry_count {}'.format(url,retry_count))
            self.app.processEvents()
            time.sleep(delay)
            retry_count -=1
        _logger.info('wait_load for url {} expired'.format(url))
        self._loaded = False

    def _loadFinished(self, result):
        self._loaded = True

面临的问题:

这3种方法在使用时，都因为一个或其他错误而卡住。这里问了一个这样的问题 Error Question on Stackoverflow .
所以在这3种方法中用Python对网页进行截图，这是有效的并且可以用于大规模部署。

最佳答案

取自 https://gist.github.com/fabtho/13e4a2e7cfbfde671b8fa81bbe9359fb并用 Python 3 重写
这种方法在技术上可行，但看起来不太好，因为许多网站都会在每个屏幕截图中出现接受 cookie 的弹出窗口，因此根据您使用的网站，您可能希望在开始屏幕截图之前先使用 selenium 删除这些过程。

from PIL import Image
from io import BytesIO

verbose = 1

browser = webdriver.Chrome(executable_path='C:/yourpath/chromedriver.exe')
browser.get('http://stackoverflow.com/questions/37906704/taking-a-whole-page-screenshot-with-selenium-marionette-in-python')

# from here http://stackoverflow.com/questions/1145850/how-to-get-height-of-entire-document-with-javascript
js = 'return Math.max( document.body.scrollHeight, document.body.offsetHeight,  document.documentElement.clientHeight,  document.documentElement.scrollHeight,  document.documentElement.offsetHeight);'

scrollheight = browser.execute_script(js)

if verbose > 0: 
    print(scrollheight)

slices = []
offset = 0
while offset < scrollheight:
    if verbose > 0: 
        print(offset)

    browser.execute_script("window.scrollTo(0, %s);" % offset)
    img = Image.open(BytesIO(browser.get_screenshot_as_png()))
    offset += img.size[1]
    slices.append(img)

    if verbose > 0:
        browser.get_screenshot_as_file('%s/screen_%s.png' % ('/tmp', offset))
        print(scrollheight)


screenshot = Image.new('RGB', (slices[0].size[0], offset))
offset = 0
for img in slices:
    screenshot.paste(img, (0, offset))
    offset += img.size[1]

screenshot.save('screenshot.png')
browser.quit()```

关于python - 在 Python 中截取 url 的更好方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51000899/

25

4

0

文章推荐： jenkins-pipeline - 声明性管道中的条件输入步骤

文章推荐： emacs - magit 和/usr/bin/emacsclient --socket-name=/tmp/emacs1000/server

文章推荐： php - DOMPDF如何添加页码

python 截取取出一部分的字符串方法
下面是split截取获得 ? 1
qt:截取 QTextEdit 中的制表符
我正在写一个小编辑。我想更改 QTextEdit 的默认行为，即在 Tab 时插入制表符被击中。相反，我想放 4 个空格。这样做的推荐方法是什么？我想关于子类化 keyPressedEvent ，但也
javascript - 截取 iFrame 的屏幕截图
我正在寻找一种简单的方法来在我的 ASP 页面中截取 iFrame 的屏幕截图。我只是无法用 C# 实现它，而且我缺乏 Javascript 知识!有没有人知道实现这一目标的简单和最佳方法？我正在尝
directx - 截取 DirectX 全屏应用程序的屏幕截图
这让我感到困惑。 DirectX 绕过所有内容并直接与设备驱动程序对话，因此 GDI 和其他常用方法将不起作用 - 除非 Aero 被禁用(或不可用)，否则出现的只是屏幕左上角的黑色矩形。我已经尝试了
ios 截取 View 并将其附加到邮件中
我正在开发一个应用程序，当我按下按钮时，我想发送 2 个 View 的 2 个屏幕截图，并将其附加到电子邮件中。这两个 View Controller 被称为 secondViewControlle
c# - 截取 wpf 弹出窗口的屏幕截图
我尝试截取一个用 WPF 编写的应用程序，但应用程序没有被捕获，我是否必须使用特殊工具来截取屏幕截图？最佳答案您可以使用 RenderTargetBitmap从 WPF 控件生成图像。 p
java - 截取 Selenium 中断言的屏幕截图？
以下是我的断言。 Assert.assertEquals(securityQuestionPage.UserName.getText().toString(),BaseClass.unsuccessf
ios - 截取 ImageView 的屏幕截图
我有一个 ImageView @property (strong, nonatomic) IBOutlet UIImageView *imageView; 我想截图。我的代码占据了整个屏幕。我已经查看
javascript - 截取 "invisible"网页的屏幕截图
我必须编写一些 javascript 代码来截取网页的屏幕截图，但不能在前台渲染它。首先，这可能吗？我需要使用一些外部库吗？请给我一些想法:) 最佳答案如果您正在谈论在 Firefox chrome
ios - 截取 tableview 的屏幕截图时如何包含导航栏
我想在我的 tableview 屏幕截图图像中包含导航栏。以下代码用于捕获整个 TableView ，我尝试了其他代码来捕获导航栏而不是整个 TableView 。可以同时进行吗？ func scre
ios - 截取 UIPickerView 的屏幕截图
我使用以下代码截取我的 View : UIGraphicsBeginImageContextWithOptions(containerView.bounds.size, NO, [[UIScreen
android - 截取 SurfaceView 的屏幕截图
我正在开发一个简单的相机应用程序。我有截取整个 Activity 的屏幕截图并将其写入 SD 卡的代码。问题是 Surfaceview 返回黑屏。我想知道如何独立截取surfaceview的截图。这
Javascript 截取 Flash 对象的屏幕截图
基本上我想做的是: 我在页面上有一个 flash 游戏(例如 pacman) 我希望能够使用 javascript 打印该游戏的屏幕这可能吗？我知道我可以将游戏 swf 包含在另一个 swf 中并使
swift - 截取 UICollectionView 的全部内容
我正在开发的应用程序使用 Collection View 单元格向用户显示数据。我希望用户能够共享单元格中包含的数据，但通常有太多单元格无法尝试调整大小并适合单个 iPhone 屏幕大小的窗口并获取屏
c# - 截取 WebBrowser 控件的屏幕截图
有人可以分享代码来截取网络浏览器控件的屏幕截图并将其保存在预定路径中。我正在使用 VS 2008 .Net 3.5。最佳答案你可以使用 Control.DrawToBitmap() ，即使它在
Java使用substring()截取(提取)子字符串
在 String 中提供了两个截取字符串的方法，一个是从指定位置截取到字符串结尾，另一个是截取指定范围的内容。下面对这两种方法分别进行介绍。 1. substring(int beginIndex
java字符串常用操作方法(查找、截取、分割)
如下所示： ? 1
MySQL实现字符串的拼接,截取,替换,查找位置的操作
MySQL字符串的拼接、截取、替换、查找位置。常用的字符串函数：函数说明 CONCAT(s1,s2，...)
ios - 截取 UIView iOS 的屏幕截图
我想截取UIView(该 View 将包含签名)并将其保存到应用程序文件中的本地文件中，以便以后调用图像点显示在类似于 UIImageView 的内容中。下面是签名 UIView 背后的代码。 #im
javascript - 是否可以使用 html2canvas 截取 URL？
下面的代码是截取当前页面的屏幕截图。 html2canvas中的url可以截图吗？我的意思是我有一个 URL 是 mydomain.com/home mydomain.com/home?id=2 my

首页

博学

6Ren·AI

商城

python - 在 Python 中截取 url 的更好方法