web-scraping - 尽管设置了 USER_AGENT，但 Scrapy Shell : twisted. internet.error.ConnectionLost-6ren

web-scraping - 尽管设置了 USER_AGENT，但 Scrapy Shell : twisted. internet.error.ConnectionLost

转载作者：行者123 更新时间：2023-12-05 08:56:07

26

4

当我尝试抓取某个网站(同时使用 spider 和 shell)时，出现以下错误:

twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion.>]

我发现当没有设置用户代理时会发生这种情况。但是手动设置后，还是报同样的错误。

您可以在此处查看 scrapy shell 的全部输出:http://pastebin.com/ZFJZ2UXe

注意事项:

我没有使用代理，我可以通过 scrapy shell 毫无问题地访问其他站点。我也可以使用 Chrome 访问该网站，所以这不是网络或连接问题。

也许有人可以提示我如何解决这个问题？

最佳答案

这是 100% 的工作代码。

您需要做的是您还必须发送请求 header 。

同时在 settings.py 中设置 ROBOTSTXT_OBEY = False

# -*- coding: utf-8 -*-
import scrapy, logging
from scrapy.http.request import Request

class Test1SpiderSpider(scrapy.Spider):
    name = "test1_spider"

    def start_requests(self):

        headers = {
            "Host": "www.firmenabc.at",
            "Connection": "keep-alive",
            "Cache-Control": "max-age=0",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36",
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
            "DNT": "1",
            "Accept-Encoding": "gzip, deflate, sdch",
            "Accept-Language":"en-US,en;q=0.8"
        }

        yield Request(url= 'http://www.firmenabc.at/result.aspx?what=&where=Graz', callback=self.parse_detail_page, headers=headers)

    def parse_detail_page(self, response):
        logging.info(response.body)

编辑:

您可以通过检查开发工具中的 URL 来查看要发送的 header

关于web-scraping - 尽管设置了 USER_AGENT，但 Scrapy Shell : twisted. internet.error.ConnectionLost，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42470303/

26

4

0

文章推荐： bash - 创建动态变量名bash并获取值

文章推荐： php - Woocommerce 优惠券添加自定义复选框

文章推荐： reactjs - 在reactjs中使用具有相同路由路径的条件组件

文章推荐： bash - 在 bash 命令输出中添加前缀

internet-explorer - 在同一台计算机上运行 Internet Explorer 6、Internet Explorer 7 和 Internet Explorer 8
像其他人一样，我需要在 Internet Explorer 6 和 Internet Explorer 7 上测试我的代码。现在，Internet Explorer 8 为开发人员提供了一些很棒的工具
internet-explorer - 如何使用注册表修改 Internet Explorer 临时 Internet 设置？
我已经浏览了几个小时的注册表，但似乎无法找到控制 Internet Explorer 临时 Internet 文件设置的注册表。我想从自动更改为其他内容。最佳答案 HKCU\Software\Mic
internet-explorer - Internet Explorer 8 和 Internet Explorer 6 并排
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: Running Internet Explorer 6, Internet Explorer 7, and Int
internet-explorer - 如何从 Internet Explorer 11 降级到 Internet Explorer 10？
作为一名开发者，我发现新的 Internet Explorer 版本完全是一场噩梦。我关闭了 Windows 功能，但无法安装 Internet Explorer 10 。它说它已经安装，但事实并非如
internet-explorer - Internet Explorer探查器
是否有任何分析器工具可以调试DOM中的哪个javascript /对象导致Internet Explorer挂起/崩溃。 CPU使用率将超过60％，我想知道其背后的原因，是哪个脚本/ Flash Ob
internet-explorer - Internet Explorer中TTF支持的状态是什么？
我正在尝试确定Internet Explorer上TTF字体格式的支持状态。 (我手头没有任何Windows计算机可以尝试。)The table at caniuse指出，从版本9开始的IE支持TTF
internet-explorer - Internet Explorer多个jdk版本
是否可以在 Internet Explorer 中切换多个版本的 JDK/JRE？想要使用 jdk 1.4、jdk 5 和 jdk 6。谢谢，迈克尔最佳答案据我所知，这并不容易做到，因为 IE
internet-explorer-8 - IE8 :Internet Explorer was not able to open this Internet site. 请求的站点不可用或找不到
这应该是IE8下载问题的老问题了。我使用 PHP 来设置响应头，如: header("Pragma: public"); header("Expires: 0"); header("Content-t
internet-explorer-6 - Internet Explorer 6 和 Internet Explorer 7 在同一台计算机上进行调试
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: Running Internet Explorer 6, Internet Explorer 7, and Int
internet-explorer - 为什么即使在模拟 Internet Explorer 8 文档模式时，Internet Explorer 11 也不支持条件注释？
我正在使用新的Internet Explorer 11开发人员工具将文档模式切换为“8”，但条件注释仍然被忽略，也就是说，它们没有被正确解析并且表现得像普通注释。因此，浏览器不会请求/加载条件注释内的
internet-explorer-7 - 是否可以出于调试目的从 Internet Explorer 7 降级到 Internet Explorer 6？
我在我的一个站点上遇到 Internet Explorer 6 问题，我真的希望我安装它而不是 Internet Explorer 7。有没有一种快速的方法来做到这一点？最佳答案下载Microso
javascript - 对于 Internet Explorer 我应该使用什么来使 Internet Explorer 禁用 Internet Explorer 的默认下拉样式
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and t
internet-explorer - 如何从 Powershell 访问 Internet Explorer 运行实例的经典 Internet Explorer COM 自动化对象？
如何访问 Internet Explorer 运行实例的经典 Internet Explorer COM 自动化对象？也就是说，如果我在多个窗口中打开 Internet Explorer，如何从 Po
internet-explorer - Internet Explorer 中带有空格的内容处理附件文件名
string filename = Server.UrlPathEncode(Path.GetFileName(_Filename))); Response.AddHeader("Content-Di
internet-explorer - Internet Explorer 永远等待本地主机
当我尝试使用 Apache 2.2 在 Windows7(64 位)上的 IE9 或 IE10 中打开 localhost 时，解析 URL 需要很长时间。其他浏览器没有问题并立即解析 URL，只有
internet-explorer - 如何从批处理文件打开和关闭 Internet Explorer？
我有一个批处理文件，必须启动 Internet Explorer 并打开 www.google.com .当整个页面加载完成时，它应该终止 IE 进程，即关闭该系统中的所有 IE 实例。我的批处理文件
internet-explorer - Internet Explorer 的测试自动化
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6 个月前关闭。 Improve t
internet-explorer - Internet Explorer - 浏览时的奇怪形状
基本上，无论我使用 IE 访问哪个网站，我都可以看到那些黑色/白色形状，一旦我将鼠标移到它们上，它们就会消失。想知道是否有人知道可能导致这种情况的原因？另外:http://imageshack.c
internet-explorer - Internet Explorer 在哪里存储它的附加组件？
我检查了所有注册表，但找不到所有已安装扩展的列表。此时，IE 扩展/加载项的任何一般位置都会有所帮助。最佳答案取自 here : 浏览器帮助对象 - 旨在增强浏览器功能的浏览器插件。条目可以在
internet-explorer - Internet Explorer 平滑滚动检测
这是一个两部分的问题。我正在构建一个网页，我需要知道: 有没有办法检测 IE 是否启用了平滑滚动(如果是，如何)？有没有办法强制 IE 关闭我网页的平滑滚动功能？明确地说，我不是在问如何关闭整个计

首页

博学

6Ren·AI

商城

web-scraping - 尽管设置了 USER_AGENT，但 Scrapy Shell : twisted. internet.error.ConnectionLost

注意事项: