mysql - scrapy中间件MySQL select的瓶颈-6ren

mysql - scrapy中间件MySQL select的瓶颈

转载作者：行者123 更新时间：2023-11-29 10:50:50

25

4

我已经测试过它是什么瓶颈。它来自中间件中的选择查询。

class CheckDuplicatesFromDB(object):

 def process_request(self, request, spider):

    #  url_list is a just python list. some urls in there.
    if (request.url not in url_list):
        self.crawled_urls = dict()

        connection = pymysql.connect(host='123',
                                     user='123',
                                     password='1234',
                                     db='123',
                                     charset='utf8',
                                     cursorclass=pymysql.cursors.DictCursor)

        try:
            with connection.cursor() as cursor:
                # Read a single record

                sql = "SELECT `url` FROM `url` WHERE `url`=%s"
                cursor.execute(sql, request.url)
                self.crawled_urls = cursor.fetchone()

            connection.commit()
        finally:
            connection.close()

        if(self.crawled_urls is None):
            return None
        else:
            if (request.url == self.crawled_urls['url']):
                raise IgnoreRequest()
            else:
                return None
    else:
        return None

如果我在setting.py中禁用DOWNLOADER_MIDDLEWEARS，scrapy的抓取速度还不错。

禁用之前:

scrapy.extensions.logstats] INFO: Crawled 4 pages (at 0 pages/min), scraped 4 items (at 2 items/min)

禁用后:

[scrapy.extensions.logstats] INFO: Crawled 55 pages (at 55 pages/min), scraped 0 items (at 0 items/min)

我猜选择查询是问题所在。因此，我想选择一次查询并获取 url 数据来放置请求 finger_prints。

我正在使用 CrawlerProcess:蜘蛛越多，每分钟抓取的页面越少。

示例:

1 个蜘蛛 => 50 页/分钟
2 个蜘蛛 => 总共 30 页/分钟
6 个蜘蛛 => 总共 10 页/分钟

我想做的是:

从MySQL获取url数据
将 URL 数据放入请求 finger_prints

我该怎么做？

最佳答案

一个主要问题是，每次响应/调用 process_request 时，您都会打开一个与 SQL 数据库的新连接。相反，打开连接一次并保持打开状态。

虽然这将导致显着的加速，但我怀疑还有其他瓶颈，一旦这个问题得到解决，就会出现。

关于mysql - scrapy中间件MySQL select的瓶颈，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43761650/

25

4

0

文章推荐： php - 如果当前年份的数据不可用，则显示上一年

文章推荐： mysql - 使用 Delphi 和firedac 编辑MySQL 中的日期时间字段

javascript - react JSX : selecting "selected" on selected
我试图通过用空格填充文本来创建下拉列表中的列效果，如下例所示: [Aux1+1] [*] [Aux1+1] [@Tn=PP] [Main] [*] [Main A
select - JPA - MAX of COUNT 或 SELECT FROM SELECT
我为 MySQL 编写了以下查询: SELECT subquery.t1_column1, subquery.t2_id, MAX(subquery.val) FROM ( S
jquery - 为什么我们用 select 标签编写 .attr ('selected' ,'selected' )
为什么我们要用 select 标签来编写.attr('selected','selected') 例如: $('#countryList option').filter(function () {
select - "selected"选项上的标签在选择具有FormControlname时不起作用
Lokalizacja: Gdańsk Rzeszów Wrocław 不知道发生了什么，但在那种情况下没有选择的选项，我必须从列表中选择一些东西。当我从选
jquery - removeAttr ("selected") 和 .attr ('selected' ,'selected' ) 无法正常工作
我的表单中有两个选择字段。第一个是单选，另一个是多选。现在我想做的是根据单选中所选的选项，使用给定的数据选择多选中的选项。为此，我在单选更改时触发 ajax 请求: $.ajax({ type
select - Firefox 5 在页面刷新时不使用 select ="selected"值，保留旧值
我在 Firefox 5 中发现了一个奇怪的错误(我现在无法访问 4)。但是，我认为它可能在 Firefox 4 中工作，因为我刚买了一台新电脑，而且我不记得以前见过这个错误。我有几个选择框。所选值
MySQL: select * from table 和 select * from (select* from table) 的区别
此 SQL 有何不同: 第一个: select * from table_1 a join table_2 b on a.id = b.acc_id 第二个: select * f
html - HTML <选项> : selected VS selected ="selected" 的最佳实践
预选的最佳做法是什么？在？根据不同的网站，两者都有效。但是哪个更好呢？最兼容？ Foo Bar 最佳答案如果您正在编写 XHTML，则 selected="selected" 是必需的。如
javascript - Angular JS : "Select All" options of "multi-select select box"
我使用 Angular JS 创建了一个多选选择框:下面是相同的代码: JS: $scope.foobars = [{ 'foobar_id': 'foobar01', 'name':
select - 在列上使用 defaultValue 属性(但不是
我正在编写一个小脚本来测试表单在提交之前是否已被更改。所以我可以使用普通输入(文本、文本区域等): if(element.defaultValue != element.value) { al
javascript - 将选项从 - 选项 select 属性被破坏了吗？
我正在尝试为 Prototype 编写一个插件，用户在其中单击下拉菜单并将其替换为多选元素。我快完成了。在用户选择他们想要显示的内容并将表单提交到同一页面之前，一切都很好。我正在使用 PHP 来使用
Mongodb select with condition is selected result must in sub select query
你如何在 MongoDB 中进行嵌套选择，类似于 SELECT id FROM table1 WHERE id IN (SELECT id FROM table2) 最佳答案 MongoDB 尚不具备
Angular 2 : Select dropdown not selecting option despite "selected" attribute
我有以下用于选择下拉列表的代码: {{unit.Text}} UnitOfMeasurements 数组中的每一项看起来像这样: Selected: false Text: "lb" Va
Use [ngValue] and [selected] in select tag(在选择标记中使用[ngValue]和[selected])
我正在尝试使用[选定]和[ngValue]来设置表单中包含对象的选择标记的默认值。但出于某种原因，它们似乎无法相提并论。。示例代码：。这段代码最终只显示空白作为缺省值。如果删除[ngValue]，它就

首页

博学

6Ren·AI

商城

mysql - scrapy中间件MySQL select的瓶颈