python - Scrapy - 连接以非干净的方式丢失。跨单个域不一致-6ren

python - Scrapy - 连接以非干净的方式丢失。跨单个域不一致

转载作者：太空宇宙更新时间：2023-11-03 14:13:38

33

4

我创建了一个基本的蜘蛛来从totaljobs.com 上抓取一小部分职位列表。我已经使用单个起始 URL 设置了蜘蛛，以显示我感兴趣的作业列表。从那里，我对结果的每个页面启动单独的请求。在每个请求中，我都会启动一个单独的请求，回调不同的解析方法，以处理各个作业 URL。

我发现起始 URL 和所有结果页面请求都处理得很好 - scrapy 连接到网站并返回页面内容。但是，当它尝试跟踪每个单独作业页面的 URL 时，scrapy 无法形成连接。在我的日志文件中，它指出:

[<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>]

恐怕我没有大量的编程经验或互联网协议(protocol)等知识。因此请原谅我无法提供有关此处可能发生的情况的更多信息。我尝试过更改 TLS 连接类型；更新到最新版本的 scrapy、twisted 和 OpenSSL；回滚到之前版本的 scrapy、twisted 和 OpenSSL；回滚加密版本，创建自定义上下文工厂并尝试各种浏览器代理和代理。我每次都会得到相同的结果:每当 URL 与特定作业页面相关时，scrapy 就无法连接，并且我会得到上述日志文件输出。

我可能忽略了一些对于经验丰富的爬虫来说非常明显的事情，这阻碍了我与 scrapy 的联系。我尝试遵循这些线程中的一些建议:

https://github.com/scrapy/scrapy/issues/1429

https://github.com/requests/requests/issues/4458

https://github.com/scrapy/scrapy/issues/2717

但是，其中有些内容有点超出我的理解范围，例如如何更新密码列表等。我认为这是某种认证问题，但是 scrapy 再次能够连接到该域上的其他 URL，所以我不知道。

我用来测试这一点的代码非常基本，但无论如何:

import scrapy

class Test(scrapy.Spider):


    start_urls = [
                    'https://www.totaljobs.com/job/welder/jark-wakefield-job79229824'
                    ,'https://www.totaljobs.com/job/welder/elliott-wragg-ltd-job78969310'
                    ,'https://www.totaljobs.com/job/welder/exo-technical-job79019672'
                    ,'https://www.totaljobs.com/job/welder/exo-technical-job79074694'
                        ]

    name = "test"

    def parse(self, response):
        print 'aaaa'
                yield {'a': 1}

上述代码中的网址未连接成功。

以下代码中的网址已已成功连接。

import scrapy

class Test(scrapy.Spider):


    start_urls = [
                    'https://www.totaljobs.com/jobs/permanent/welder/in-uk'
                    ,'https://www.totaljobs.com/jobs/permanent/mig-welder/in-uk'
                    ,'https://www.totaljobs.com/jobs/permanent/tig-welder/in-uk'
                        ]

    name = "test"

    def parse(self, response):
        print 'aaaa'
                yield {'a': 1}

如果有人可以复制此行为(或视情况而定)并让我知道，那就太好了。如果我应该提交更多详细信息，请告诉我。如果我忽略了一些非常明显的事情，我深表歉意。我正在使用:

Windows 7 64 位

Python 2.7

scrapy版本1.5.0

扭曲版本17.9.0

openSSL 版本 17.5.0

lxml 版本 4.1.1

最佳答案

您可以尝试设置用户代理，看看是否会改变情况。

您还可以尝试在请求之间或通过代理执行具有较大延迟的请求。

由于它是一个招聘网站，我想他们有某种反抓取机制。

这不是一个令人惊奇的答案，但我可以与您分享一些见解，也许可以帮助您确定下一步的步骤。

关于python - Scrapy - 连接以非干净的方式丢失。跨单个域不一致，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48329534/

33

4

0

文章推荐： Python3不编译源文件

文章推荐： c# - 显卡 : get Shared system memory and total available memory in c#

文章推荐： c# - 如何通过 IIS 模块获取网页的响应文本？

c# - 保持字典的 Where() 一致
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Recreating a Dictionary from an IEnumerable 在 Dictiona
imagemagick - 是否可以修剪图像并强制其尺寸与 ImageMagick 一致？
是否可以使用命令行版本的 ImageMagick 修剪图像(比如带有 alpha 的 PNG)，使输出图像的宽度和高度都是偶数(不是奇数)？准确地说，应该先修剪输出图像，然后用透明像素填充。我需要这
java - 保持数据结构 View 一致
我有一个订单的Map，可以由许多不同的线程访问。我想控制访问，所以考虑以下简单的数据结构+包装器。 public interface OrderContainer { boolean cont
css - 我如何使我的导航与 Logo 一致？
我有以下代码，现在只是 div 中的一个 Logo ，但我正在尝试添加一些导航单元格，稍后我将对其进行样式设置。问题是，我似乎无法让它们与(除此之外) Logo “一致”，它们总是下降到下一行。我做错
java - 一致 UI 的设计模式
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 9 年前。 Improve this qu
javascript - 使用种子值在刷新之间保持 d3-cloud 一致？
有没有办法将种子值传递给 d3-cloud 或其他基于 javascript 的标签云，以使其在页面加载之间保持一致？我们的客户希望使用标签云作为导航/发现辅助工具，但由于 d3-cloud 会在每
javascript - 路径长度变化时保持 stroke-dasharray 一致
我有一条由用户使用 D3.js 绘制的路径。我想在我的用户绘制路径上定义一个破折号数组，但是，随着它改变其形状和长度，破折号的行为不一致并且间隙在移动并变得越来越小。这是一个代码笔: https:
ios - UIStatusBar 风格与 UINavigationBar 一致
只是为了研究UINavigationBar和UIStatusBar的UI，我把Navigation Bar Style改成了Black，并且取消勾选Bar visibility，即Shows Navi
macos - 一致 "-repeat watch"不工作
我最近在我的家用机器 (OSX 10.9) 和我的远程服务器 (Ubuntu 12.04 64 位) 上安装了 unison。我在这两个地方都安装了 2.40.102 版本。我在我的 Mac 上使用
python - 测试数据库迁移结果是否与(ORM)一致？楷模
我正在使用 migrate 创建 SQL 数据库模式并用初始数据填充它。后来使用 SQLAlchemy 来处理这个数据库。我如何测试我的 SQLAlchemy 模型是否与 migrate 生成的真实
html - 图像与文本 HTML CSS 一致
道歉对这一切来说还是新鲜事。我正在创建一个网页，并在两个单独的 div 中将图像和文本并排放置。我已经设法将它们放在页面上我想要的位置，但是当我调整页面大小时，文本会调整大小，但图像不会。我希望文本底
cassandra - 为什么 Cassandra 不一致而 HBase 一致？
在翻阅Cassandra和HBase的阅读资料时，我发现Cassandra并不一致，但HBase是一致的。没有找到任何合适的阅读 Material 。有人可以提供有关此主题的任何博客/文章吗？最佳
objective-c - 如何计算文件夹的大小。 (此尺寸必须与 Finder 一致。)
我需要计算 MacOS 中文件夹的大小。该尺寸值必须与 Finder 一致。我尝试了几种方法来做到这一点。但结果总是与Finder不同。以下方法是我尝试过的。 typedef struct{
c++ - 如何保证 C++ 模板类特化之间的接口(interface)一致？
问:我可以使用 C++ 中的任何编译时机制来自动验证模板类方法集是否从类特化到特化相匹配？示例:假设我想要一个类接口(interface)，它根据模板值专门化具有非常不同的行为: // forwar
python - SelectKBest 与 GaussianNB 结果不精确/一致
我想使用 SelectKBest 选择前 K 个特征并运行 GaussianNB: selection = SelectKBest(mutual_info_classif, k=300) data_t
html - 有没有最好的方法来证明 h1 文本与其包含的 div 一致？
我想要一个位于页面中央的 div，其中包含一行(两个单词)的 h1 文本，并且该文本与 div 的长度对齐；意思是，字母留出空间(同时保持它们的大小)以占据 div 的整个宽度，并且不要超出 div。
php - 更新 Ubuntu 服务器错误后与 apache 一致
我试图更新我的服务器，所以我通过 ssh 运行以下命令: sudo do-release-upgrade 我收到以下错误: Errors were encountered while processi
opencv - 我如何计算 SVD 并验证第一个奇异值与最后一个奇异值的比率是否与 OpenCV 一致？
我想验证单应矩阵会给出好的结果，而这个 this answer 有答案 - 但是，我不知道如何实现答案。那么谁能推荐我如何使用 OpenCV 计算 SVD 并验证第一个奇异值与最后一个奇异值的比率是
ios - CocoaPod 规范不会与 0.36 一致
我最近更新到 cocoapods 0.36 并对内部规范做了一些更改，现在 podspec 不再有效。我用 0.35 验证了此规范的先前版本 (0.3.8)，但使用 0.36 失败。很明显 cocoa
ios - 滚动第二个 UITableView 与第二个 UITableView 一致
我有两个并排设置的 TableView ，我需要它们同时滚动。因此，当您滚动一个时，另一个也会同时滚动。我进行了一些搜索，但找不到任何信息，但我认为这一定是有可能的。我的 TableView 都连

首页

博学

6Ren·AI

商城

python - Scrapy - 连接以非干净的方式丢失。跨单个域不一致