python - 抓取 RSS feed 时无法抓取 scrapy-6ren

python - 抓取 RSS feed 时无法抓取 scrapy

转载作者：行者123 更新时间：2023-12-01 05:11:05

24

4

我想抓取所有标题标签以及父项标签中的其他标签。但无法抓取。尝试了 scrapy shell，似乎工作正常。下面是我的完整代码

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from scrapy_rss.items import rssItem
from scrapy.utils.response import get_base_url
import time

class MySpider(CrawlSpider):
    name = 'rssaggr'
    allowed_domains = ['indianexpress.com']
    start_urls = ['http://indianexpress.com/section/sports/feed/']
    rules = (
        Rule(SgmlLinkExtractor(allow=('', ), deny=('defghi\.txt')), callback='parse_item',follow=True),
    )
    def parse_item(self, response):
     sel = Selector(response)
     items = sel.xpath('//item')
     for elements in items:
      item = rssItem()
      item['title'] = elements.xpath('./title/text()').extract()
      return item

下面是我的 items.py

from scrapy.item import Item, Field

class ScrapyRssItem(Item):
    # define the fields for your item here like:
    # name = Field()
    pass

class rssItem(Item):
    title = Field()

最佳答案

您的函数应命名为parse，而不是parse_item。 Scrapy 希望您覆盖蜘蛛的 parse 方法。因此您不应使用不同的名称 ( see the documentation )。

此外，您的代码将仅返回第一个解析的项目。您可以将所有项目添加到列表中，然后将其返回。我像这样修改了您的代码，以便您从提要中获取所有项目(我测试了它并且它有效)。

def parse(self, response):
    sel = Selector(response)
    items = sel.xpath('//item')
    parsed_items = []
    for elements in items:
        item = rssItem()
        item['title'] = elements.xpath('./title/text()').extract()
        parsed_items.append(item)
    return parsed_items

关于python - 抓取 RSS feed 时无法抓取 scrapy，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24213736/

24

4

0

文章推荐： python - Django休息框架API : additional fields in ModelSerializer

文章推荐： python - 我无法使用 pygame.get_pressed() 读取键盘的状态

文章推荐： LaTeX 多个方程引用合二为一

rss - RSS 提要中推荐的项目数
我正在为现有网站创建 RSS，我只是想知道是否有推荐数量的提要项目显示在 RSS 提要中？可以输出我想要的任意数量的提要吗？如果需要，一次像 50 个提要一样吗？ RSS 的目的是让网站上的订阅者随
rss - 从命令行发布到 RSS
从 Windows 命令行，我希望能够发布到 RSS 提要。我想象这样的事情: rsspub @builds "Build completed without errors." 然后，有人可以访问我的
rss - RSS 提要中的图像
每当我在 RSS 提要中看到图像时，它们都嵌入在 CDATA 中，而不是被标签包围。在我的提要中，我希望图像不这样做就显示出来。无论是在浏览器中，还是在提要阅读器 (Bloglines) 中或通过
rss - 面向Web开发人员的最佳新闻提要，RSS
As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be
rss - RSS 描述项的最大长度
RSS 项目内的描述标签是否有长度限制或最大大小？此外，此标记是否可以容纳 HTML 标记？我将生成和来自同一源 HTML，还想知道是否标签容纳 HTML。最佳答案据我所知，没有长度限制
rss - 一个 RSS 提要中有多少条目？我可以为 RSS 提要创建页面吗？
我正在为我正在开发的网站创建 RSS 提要。我阅读了关于 RSS 的内容，它非常简单:它是一个特殊格式的 XML 文件。但是，我找不到有关以下两个问题的信息 RSS 提要中的条目/项目数量是否有限制
rss - 监控特定的 RSS
对于我订阅的所有 RSS 源，我使用 Google Reader ，我喜欢。不过，我确实有几个特定的 RSS 提要，希望在更新后立即收到通知(例如，我希望尽快监控和响应的论坛的 RSS 提要)。
rss - RSS 的联合部分如何工作？
我了解如何制作 RSS 文件。它的 XML 非常简单。但是我需要什么特殊的更新才能分发，还是我只需要定期更新文件而其余的会自行处理？我在 rss 上找到的所有内容都在谈论它的作用，但并没有谈论它是如何
rss - 提供 RSS 和 Atom 提要？我们两者都需要还是 RSS 赢了？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 8年前关闭。 Improve this qu
rss - 将 RSS 添加到任何网站？
是否有任何网站/服务可以让我向任何网站添加 RSS 订阅？这是我工作的公司。我们有一个显示公司相关新闻的网站。这些新闻由外部机构提供，并自动更新到我们的数据库中。我们的网站选择随机/新消息并显示它们
rss - 将其他人的 RSS 提要重新打包成新的演示文稿的合法性是什么？
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q
rss - 使用第三方 RSS 提要
我想知道在您的应用程序中使用其他人的 RSS 提要(例如 BBC RSS 提要)是否存在任何法律问题？最佳答案你真的应该问律师。但是，我在 out-law.com 上找到了这个: Using a
rss - 我如何知道有多少人订阅了我提供的 RSS 提要？
我们有一个提供一些 RSS 提要的站点，我们想知道有多少人订阅了每个提要，而不使用像 FeedBurner 这样的系统来为他们提供服务。解决这个问题的原始方法基本上是记录请求，然后获取请求每个提要的
rss - 以近乎实时的间隔刷新 RSS 提要
我有一个系统可以获取几百个 RSS 提要。目前，它们的刷新周期为 10 分钟，但我最好让它更快。以近实时/推送间隔获取 RSS 源的策略是什么？我遇到的一些解决方案: 1分钟取一次；如果没有变化，则
rss - RSS guid 可以被认为是全局唯一的吗？
我需要在数据库中存储来自多个 RSS 提要的新项目。我想使用每个项目的 GUID 标记来确定它是否已经存在于数据库中。见 W3C specification : guid stands for gl
rss - 用标题图片构建一个 RSS 阅读器
我正在构建一个在线 Rss 阅读器。我希望能够与文章标题和描述一起显示图像。我正在使用谷歌提要 API 从 CNN ( http://rss.cnn.com/rss/edition.rss ) 读取
rss - 延迟外部 RSS 提要
我订阅了许多 RSS 提要，主要来自我自己的时区(英国:目前是 GMT+1，又名 BST)。不过我也对新西兰的新闻感兴趣(目前为 GMT+12)。我的问题是由于我沉迷于需要将未读计数保持在或接近于零
rss - 新 RSS 条目的不显眼的实时通知
首先，为什么我问:现在 StackOverflow 上的声望点具有真正的值(value)(您可以通过提供赏金将它们花在该死的好答案上)我想监视我可能能够回答的问题并扑向它们! (此外，其他人实时回答我
rss - 仅包含特定标签的Tumblr RSS feed
我想基于我使用的Tumblr标签创建一个RSS feed。我想将的部分提交给博客联合服务。我必须向博客联合组织提供一个RSS feed。但是我不希望所有帖子都出现在那。有什么办法可以做这样的事情吗？
rss - rss 已读/未读状态存储在哪里
当我们用 rss 阅读器获取 rss 时，阅读器是标记已读/未读状态还是将此类信息发送回服务器？阅读完一条消息后，我转向另一个 RSS 阅读器，我会收到所有标记为未读的 RSS 记录吗？最佳答案

首页

博学

6Ren·AI

商城

python - 抓取 RSS feed 时无法抓取 scrapy