python - 从 csv 文件读取 start

python - 从 csv 文件读取 start_urls

转载作者：行者123 更新时间：2023-11-28 16:33:48

所以我正在使用 scrapy 库开发一个 scraper，为了便于使用，我想让它从 .csv 文件中获取它的起始 url。我已经对该主题进行了一些研究，我相信它可以正确地从 .csv 中获取 url，但我遇到了一些奇怪的错误。如果有人可以看一下并告诉我我做错了什么，那就太好了。我的蜘蛛看起来像这样，我的项目非常基本，因为我并没有真正用它来做任何事情。最终，我会将信息存储回项目中，以便我可以将其写回 .csv，但现在我只想让爬网工作。

from scrapy.spider import BaseSpider
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.utils.markup import remove_tags
from scrapy.selector import Selector
from scrapy.selector import HtmlXPathSelector
from tutorial.items import BSiteItem
import csv
import sys

class BsiteSPider(CrawlSpider):
    name = "Bsite"
    l= []
    my_file = open("aerospace.csv", "rb")
    reader = csv.reader(my_file)
    for row in reader:
        l.append(row)
    print l[0]
    start_urls = l[0]
    download_delay = 1
    rules = [Rule(SgmlLinkExtractor(allow=()), follow=True, callback='parse_item')]

    def parse_item(self, response):
        text = Selector(response).xpath("//body//text()").re('(\w+)')

        for text in text:
            newtext = text.encode('utf8')
            hxs = HtmlXPathSelector(response)
            item = BSiteItem()
            if newtext == 'aerospace' or newtext == 'Aerospace' or newtext == 'AEROSPACE':
                print 'True'
                test = response.url
                print test

csv 是一个测试文件，里面有一个 url，http://www.ballaerospace.com .

我的输出看起来像:

scrapy crawl Bsite
['http://www.ballaerospace.com']
2015-03-20 10:03:15-0400 [scrapy] INFO: Scrapy 0.24.5 started (bot: tutorial)
2015-03-20 10:03:15-0400 [scrapy] INFO: Optional features available: ssl, http11
2015-03-20 10:03:15-0400 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'tutorial.spiders', 'SPIDER_MODULES': ['tutorial.spiders'], 'BOT_NAME': 'tutorial'}
2015-03-20 10:03:15-0400 [scrapy] INFO: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState
2015-03-20 10:03:15-0400 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2015-03-20 10:03:15-0400 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2015-03-20 10:03:15-0400 [scrapy] INFO: Enabled item pipelines: 
2015-03-20 10:03:15-0400 [Bsite] INFO: Spider opened
2015-03-20 10:03:15-0400 [Bsite] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2015-03-20 10:03:15-0400 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2015-03-20 10:03:15-0400 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080
2015-03-20 10:03:15-0400 [Bsite] DEBUG: Crawled (200) <GET http://www.ballaerospace.com> (referer: None)
2015-03-20 10:03:15-0400 [Bsite] ERROR: Spider error processing <GET http://www.ballaerospace.com>
    Traceback (most recent call last):
      File "/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/twisted/internet/base.py", line 800, in runUntilCurrent
        call.func(*call.args, **call.kw)
      File "/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/twisted/internet/task.py", line 602, in _tick
        taskObj._oneWorkUnit()
      File "/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/twisted/internet/task.py", line 479, in _oneWorkUnit
        result = self._iterator.next()
      File "/Library/Python/2.7/site-packages/Scrapy-0.24.5-py2.7.egg/scrapy/utils/defer.py", line 57, in <genexpr>
        work = (callable(elem, *args, **named) for elem in iterable)
    --- <exception caught here> ---
      File "/Library/Python/2.7/site-packages/Scrapy-0.24.5-py2.7.egg/scrapy/utils/defer.py", line 96, in iter_errback
        yield next(it)
      File "/Library/Python/2.7/site-packages/Scrapy-0.24.5-py2.7.egg/scrapy/contrib/spidermiddleware/offsite.py", line 26, in process_spider_output
        for x in result:
      File "/Library/Python/2.7/site-packages/Scrapy-0.24.5-py2.7.egg/scrapy/contrib/spidermiddleware/referer.py", line 22, in <genexpr>
        return (_set_referer(r) for r in result or ())
      File "/Library/Python/2.7/site-packages/Scrapy-0.24.5-py2.7.egg/scrapy/contrib/spidermiddleware/urllength.py", line 33, in <genexpr>
        return (r for r in result or () if _filter(r))
      File "/Library/Python/2.7/site-packages/Scrapy-0.24.5-py2.7.egg/scrapy/contrib/spidermiddleware/depth.py", line 50, in <genexpr>
        return (r for r in result or () if _filter(r))
      File "/Library/Python/2.7/site-packages/Scrapy-0.24.5-py2.7.egg/scrapy/contrib/spiders/crawl.py", line 73, in _parse_response
        for request_or_item in self._requests_to_follow(response):
      File "/Library/Python/2.7/site-packages/Scrapy-0.24.5-py2.7.egg/scrapy/contrib/spiders/crawl.py", line 52, in _requests_to_follow
        links = [l for l in rule.link_extractor.extract_links(response) if l not in seen]
      File "/Library/Python/2.7/site-packages/Scrapy-0.24.5-py2.7.egg/scrapy/contrib/linkextractors/sgml.py", line 119, in extract_links
        links = self._extract_links(body, response.url, response.encoding, base_url)
      File "/Library/Python/2.7/site-packages/Scrapy-0.24.5-py2.7.egg/scrapy/linkextractor.py", line 94, in _extract_links
        return self.link_extractor._extract_links(*args, **kwargs)
      File "/Library/Python/2.7/site-packages/Scrapy-0.24.5-py2.7.egg/scrapy/contrib/linkextractors/sgml.py", line 28, in _extract_links
        self.feed(response_text)
      File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/sgmllib.py", line 104, in feed
        self.goahead(0)
      File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/sgmllib.py", line 174, in goahead
        k = self.parse_declaration(i)
      File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/markupbase.py", line 96, in parse_declaration
        return self.parse_marked_section(i)
      File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/markupbase.py", line 160, in parse_marked_section
        self.error('unknown status keyword %r in marked section' % rawdata[i+3:j])
      File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/sgmllib.py", line 111, in error
        raise SGMLParseError(message)
    sgmllib.SGMLParseError: unknown status keyword 'Flash ' in marked section

2015-03-20 10:03:15-0400 [Bsite] INFO: Closing spider (finished)
2015-03-20 10:03:15-0400 [Bsite] INFO: Dumping Scrapy stats:
    {'downloader/request_bytes': 220,
     'downloader/request_count': 1,
     'downloader/request_method_count/GET': 1,
     'downloader/response_bytes': 13700,
     'downloader/response_count': 1,
     'downloader/response_status_count/200': 1,
     'finish_reason': 'finished',
     'finish_time': datetime.datetime(2015, 3, 20, 14, 3, 15, 791776),
     'log_count/DEBUG': 3,
     'log_count/ERROR': 1,
     'log_count/INFO': 7,
     'response_received_count': 1,
     'scheduler/dequeued': 1,
     'scheduler/dequeued/memory': 1,
     'scheduler/enqueued': 1,
     'scheduler/enqueued/memory': 1,
     'spider_exceptions/SGMLParseError': 1,
     'start_time': datetime.datetime(2015, 3, 20, 14, 3, 15, 691908)}
2015-03-20 10:03:15-0400 [Bsite] INFO: Spider closed (finished)

有什么可能出错的想法吗？

最佳答案

问题发生在“提取链接”步骤。

替换:

rules = [Rule(SgmlLinkExtractor(allow=()), follow=True, callback='parse_item')]

与:

rules = [Rule(LinkExtractor(), follow=True, callback='parse_item')]

并且，不要忘记导入 LinkExtractor:

from scrapy.contrib.linkextractors import LinkExtractor

关于python - 从 csv 文件读取 start_urls，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29168679/

文章推荐： Python 和 Netbios

文章推荐： jquery - 悬停时暂停 css 动画，然后从点继续

文章推荐： python - 选择GUI时如何去除黑边？

文章推荐： python - 无法在 virtualenv 中的 Windows 上安装 Django

Python Scrapy 打印 start_url 或 start_url 中的变量
尝试产生“数字”或者可能获取start_url，然后解析start_url以获取数字: class EbaypriceSpider(Spider): name = "ebayprice"
javascript - start_url 在离线 : The start_url did respond, 时没有响应 200，但不是通过服务 worker 。灯塔审计问题
我正在创建一个与服务人员脱机工作的 PWA。现在它可以正常工作，但 Lighthouse Audit 存在问题。当我运行 Lighthouse 时，在 PWA 部分我遇到了这个问题: 离线时 st
python - 文本文件中的Scrapy start_urls
我正在尝试抓取网址并检索每个网址的h1。 url 存储在文本文件中。代码是: class MySpider(CrawlSpider): name = "sitemaplocation"
python - Scrapy start_urls
The script (下)来自 this教程包含两个 start_urls。 from scrapy.spider import Spider from scrapy.selector import
caching - Workbox 在初始加载时不缓存 start_url
我一直在使用 Google 的 workbox library现在有一段时间，在非常基本的水平上。大部分效果很好，但由于某些原因，我的 manifest.json 中的 start_url 未在初始页
python - Scrapy start_urls 未解析
我刚刚将 scrapy 更新到 0.22，现在面临一些问题。我使用的是基本的 Spider，只是想请求一个 start_url 并在 parse(self,response) 函数中查看结果。 cl
python - Scrapy，限制 start_url
我想知道我可以分配给蜘蛛的 start_urls 的数量是否有限制？据我搜索，似乎没有关于列表限制的文档。目前我已经设置了我的爬虫，以便从 csv 文件中读取 start_urls 列表。 url
python - 从脚本设置 Scrapy start_urls
我有一个工作的 scrapy 蜘蛛，我可以通过一个单独的脚本运行它，然后是 example here .我还为我的脚本创建了一个 wxPython GUI，它仅包含一个多行 TextCtrl，供用户输
python - 动态 start_urls 值
我是 scrapy 和 python 的新手。我写了一个蜘蛛，它可以很好地处理初始化的 start_urls 值。如果我在 Init 中的代码中放入文字，它也可以正常工作 { self.start_
python - 如何将 start_url 添加为项目？
我是 Python 和 Scrapy 新手。我希望 item['Source_Website'] 成为我正在抓取的网址。我怎样才能实现这个目标？我尝试了 item['Source_Website']
python - 每个 start_url 抓取了多少项目
我使用 scrapy 抓取 1000 个 url 并将抓取的项目存储在 mongodb 中。我想知道为每个网址找到了多少项目。从 scrapy stats 我可以看到 'item_scraped_co
python - Scrapy 蜘蛛在第一次请求 start_urls 后关闭
我正在以与其他蜘蛛相同的结构运行我的蜘蛛，但对于这个特定的网站和这个特定的蜘蛛，它会在第一次请求启动 url 后关闭。可能是什么问题？终端输出: ... 2022-04-03 17:42:34 [s
python - Scrapy:多个 "start_urls"产生重复的结果
虽然我的简单代码根据 the official document 看起来不错，它会生成意外重复的结果，例如: 设置 3 个网址时为 9 行/结果设置 2 个网址时为 4 行/结果当我只设置 1 个
Python:Scrapy start_urls 列表能够处理 .format()？
我想解析一个股票列表，所以我试图格式化我的 start_urls 的末尾列表，这样我就可以只添加符号而不是整个 url。蜘蛛类 start_urls里面stock_list方法: class MyS
python - Scrapy 不会爬取所有 start_url 的
我有一个 ~2211 开始 url 的列表，scrapy 抓取了一些，但不是全部。当我将 start_url 设置为单个 url 时，它会抓取 URL，如果我在一个大列表中有 URL，scrapy 不
python - 从 csv 文件读取 start_urls
所以我正在使用 scrapy 库开发一个 scraper，为了便于使用，我想让它从 .csv 文件中获取它的起始 url。我已经对该主题进行了一些研究，我相信它可以正确地从 .csv 中获取 url，
python - Scrapy:存储/抓取当前的 start_url？
背景(可略过): 我目前正在运行两个不同的 scrapy 爬虫。第一个检索有关产品 x 的信息，第二个检索有关产品 x 的其他信息，这些信息是在第一个机器人抓取的 url 上找到的。我的管道将每个
python - 使用没有元数据的 start_url 将额外值传递给 Scrapy 蜘蛛
我已经从蜘蛛中抓取了项目，我正在编写另一个蜘蛛，它使用搜索引擎来填充一些缺失的数据。我想逐行更新第一个蜘蛛的项目。但是，我不知道如何从 __init__ 方法传递当前行或 start_url。我知
javascript - PWA : How to have dynamic "start_url" in manifest. json
我正在创建 PWA 并偶然发现 manifest.json 文件中的“start_url”存在问题。我试图变成 PWA 的网站取决于查询参数，而 "start_url":"/"不会获取查询参数。我尝
angularjs - Web 应用 list : hash in start_url
有没有办法在网络应用程序 list 中设置哈希值？类似的东西: "start_url": "/#/admin", 我试过了，但是不行。有什么想法吗？最佳答案试试这个:"start_url": "

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 从 csv 文件读取 start_urls