python - 使用旋转代理运行 scrapy splash-6ren

python - 使用旋转代理运行 scrapy splash

转载作者：行者123 更新时间：2023-12-05 07:37:43

25

4

我正在尝试将 scrapy 与启动和旋转代理一起使用。这是我的 settings.py:

ROBOTSTXT_OBEY = False
BOT_NAME = 'mybot'
SPIDER_MODULES = ['myproject.spiders']
NEWSPIDER_MODULE = 'myproject.spiders'
LOG_LEVEL = 'INFO'
USER_AGENT = 'Mozilla/5.0'

# JSON file pretty formatting
FEED_EXPORT_INDENT = 4

# Suppress dataloss warning messages of scrapy downloader
DOWNLOAD_FAIL_ON_DATALOSS = False   
DOWNLOAD_DELAY = 1.25  

# Enable or disable spider middlewares
SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

# Enable or disable downloader middlewares
DOWNLOADER_MIDDLEWARES = {
    'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}

# Splash settings
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
SPLASH_URL = 'http://localhost:8050'

我正在我的蜘蛛中设置 ROTATING_PROXY_LIST:

proxy_list = re.findall(r'(\d*\.\d*\.\d*\.\d*\:\d*)\b',
             requests.get("https://raw.githubusercontent.com/clarketm/proxy-list/master/proxy-list.txt").text)     
custom_settings = {'ROTATING_PROXY_LIST': proxy_list}

我开始飞溅docker run -p 8050:8050 scrapinghub/splash。以下是启动请求的方式:

def start_requests(self):
    urls =  [ 'http://example-com/page_1.html', 'http://example-com/page_1.html']
    for url in urls:
        yield SplashRequest(url, 
                            self.parse_url, 
                            headers={'User-Agent': self.user_agent }, 
                            args = {'render_all': 1, 'wait': 0.5}
                            )

但是，在运行爬虫时，我没有看到任何请求通过 Splash。我该如何解决这个问题？

谢谢津

最佳答案

我认为我们不能在 splash 中使用 scrapy-rotating-proxies，如果你想在 splash 中使用代理试试这个:

yield SplashRequest(
            'https://ipv4.icanhazip.com/',
            self.parse_response,
            endpoint='execute',
            args={
                'lua_source': self.lua_script,
                'http_method': 'POST',
                'timeout': 60,
                'proxy': 'http://use:pass@Ip:Port'
            },
            errback=self.errback_httpbin)

如果你想对带有 Splash 请求的 Scrapy 请求使用 scrapy-rotating-proxies，请添加另一个中间件以排除来自 Splash 的请求。

设置.py:

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware':
    810,
    'scrapping_tool.middlewares.ProxiesMiddleware': 400,
    'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}

和代理中间件:

class ProxiesMiddleware(object):
    def __init__(self, settings):
        pass

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler.settings)

    def process_request(self, request, spider):
        if (isinstance(request,
                       scrapy.http.request.form.FormRequest) == False):
            request.meta['proxy'] = None

关于python - 使用旋转代理运行 scrapy splash，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48378106/

25

4

0

文章推荐： android - 从同一 fragment 中重新启动 fragment

文章推荐： Usercontrol 和 Window 中 ViewModel 的 WPF 多实例

文章推荐： android - HERE SDK 在 Android 8 的后台无法使用

文章推荐： java - ObjectMapper 转换为 arraylist 不保留顺序

iPhone，旋转 + EAGLView，旋转 =
...沮丧。我希望我的游戏仅在横向模式下运行。我已将适当的键/值添加到 Info.plist 文件中，以强制设备方向在启动时正确。我现在正在尝试旋转 OpenGL 坐标空间以匹配设备的坐标空间。我正
java - 我将如何创建一个旋转矩阵，将 X 旋转 a，Y 旋转 b，Z 旋转 c？
我如何创建一个旋转矩阵，将 X 旋转 a，Y 旋转 b，Z 旋转 c？我需要公式，除非您使用的是 ardor3d api 的函数/方法。矩阵是这样设置的 xx, xy, xz, yx, yy, y
c++ - 从全局位置/旋转/比例更新本地位置/旋转/比例？
假设我有一个包含 3 个 vector 的类(一个用于位置，一个用于缩放，一个用于旋转)我可以使用它们生成一个变换矩阵，该矩阵表示对象在 3D 空间中的位置、旋转和大小。然后我添加对象之间的父/子关系
javascript - CSS 旋转。旋转 div 但保持在完全相同的坐标？
所以我只是在玩一个小的 javascript 游戏，构建一个 pacman 游戏。你可以在这里看到它:http://codepen.io/acha5066/pen/rOyaPW 不过我对旋转有疑问。你
iphone - iOS 旋转 MKAnnotationView 以响应 MKMapView 旋转
在我的应用程序中，我有一个 MKMapView，其中显示了多个注释。 map 根据设备的航向旋转。要旋转 map ，请执行以下语句(由方法 locationManager 调用:didUpdateHe
javascript - 旋转 90/-90 度的图像模糊 jquery 旋转
使用此 jquery 插件时:http://code.google.com/p/jqueryrotate/wiki/Documentation我将图像旋转 90 度，无论哪个方向，它们最终都会变得模糊
css - 为什么不同的 CSS3 旋转 + 平移 vs 旋转 + 左
我有以下代码:CSS: .wrapper { margin:80px auto; width:300px; border:none; } .square { widt
Qt图像移动/旋转
我只想通过小部件的轴移动图像并围绕小部件的中心旋转(就像任何数字绘画软件中的 Canvas )，但它围绕其左顶点旋转...... QPainter p(this); QTransform trans;
JavaScript 旋转
我需要先旋转图像，然后再将其加载到 Canvas 中。据我所知，我无法使用 canvas.rotate() 旋转它，因为它会旋转整个场景。有没有好的JS方法来旋转图片？ [不依赖于浏览器的方式] 最
安卓横屏180°旋转
我需要知道我的 Android 设备屏幕何时从一个横向旋转到另一个横向(rotation_90 到 rotation_270)。在我的 Android 服务中，我重新实现了 onConfigurati
Python图像处理丨图像缩放、旋转、翻转与图像平移
**摘要：**本篇文章主要讲解Python调用OpenCV实现图像位移操作、旋转和翻转效果，包括四部分知识：图像缩放、图像旋转、图像翻转、图像平移。本文分享自华为云社区《[Python图像处理] 六
metal - 旋转，平移和默认相机位置
我只是在玩MTKView中的模板设置；并且，我一直在尝试了解以下内容：相机的默认位置。使用MDLMesh和MTKMesh创建基元时的默认位置。为什么轮换还涉及翻译。相关代码： matrix_f
旋转 ggplot 树状图的标签
我正在尝试使用包 dendexend 创建一个树状图。它创建了非常好的 gg 树状图，但不幸的是，当你把它变成一个“圆圈”时，标签跟不上。我将在下面提供一个示例。我的距离对象在这里:http://s
旋转 ggplot2 绘图对象
我想将一个完整的 ggplot 对象旋转 90°。我不想使用 coord_flip因为这似乎会干扰 scale="free"和 space="free"使用刻面时。例如: qplot(as.fac
人类的 opengl 旋转
我目前可以通过首先平移到轴心点然后执行旋转最后平移回原点来围绕轴心点旋转。在我的例子中，我很容易为肩膀做到这一点。但是，我不知道如何为前臂添加绕肘部的旋转。我已经尝试了以下围绕肘部旋转的前臂: 平移
jQuery 旋转/变换
我想使用此功能旋转然后停止在特定点或角度。现在该元素只是旋转而不停止。代码如下: $(function() { var $elie = $("#bkgimg");
iPhone UIImageView 旋转
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
iphone - 基本关键帧动画(旋转)
我正在尝试创建一个非常简单的关键帧动画，其中图形通过给定的中点从一个角度旋转到另一个角度。 (目的是能够通过大于 180 度的 OBTUSE 弧角来制作旋转动画，而不是让动画“作弊”并走最短路线，即通
cocoa - 旋转 NSView
我需要旋转 NSView 实例的框架，使其宽度变为其高度，其高度变为其宽度。该 View 包含一个字符串，并且该字符串也被旋转，这一点很重要。我查看了 NSView 的 setFrameRotati
Javascript - 图像不循环/旋转
我正在编写一个脚本，用于在 javascript 中旋转/循环浏览图像，同时遵守循环浏览图像的次数限制。我所拥有的如下: var delay = 3000; //6000 = change to

首页

博学

6Ren·AI

商城

python - 使用旋转代理运行 scrapy splash