python - Scrapy-如何从一个类别中提取所有博客文章？-6ren

python - Scrapy-如何从一个类别中提取所有博客文章？

转载作者：行者123 更新时间：2023-11-28 17:33:15

25

4

我正在使用 scrapy 提取我博客的所有帖子。问题是我不知道如何创建一个规则来读取任何给定博客类别中的所有帖子？

示例:在我的博客上，“环境设置”类别有 17 个帖子。所以在 scrapy 代码中，我可以按照给定的方式对其进行硬编码，但这不是一种非常实用的方法

start_urls=["https://edumine.wordpress.com/category/ide- configuration/environment-setup/","https://edumine.wordpress.com/category/ide-configuration/environment-setup/page/2/","https://edumine.wordpress.com/category/ide-configuration/environment-setup/page/3/"]

我在 SO 上阅读过与此问题相关的类似帖子，例如 1 , 2 , 3 , 4 , 5 , 6 , 7 ，但我似乎无法找到我的答案。如您所见，唯一的区别是上述网址中的页数。我如何在 scrapy 中编写一个规则来读取一个类别中的所有博客文章。还有一个小问题，我如何配置蜘蛛来抓取我的博客，以便当我发布新的博客文章条目时，抓取器可以立即检测到它并将其写入文件。

这就是我到目前为止的蜘蛛类

from BlogScraper.items import BlogscraperItem
from scrapy.spiders import CrawlSpider,Rule
from scrapy.selector import Selector
from scrapy.linkextractors import LinkExtractor
from scrapy.http import Request


class MySpider(CrawlSpider):
    name = "nextpage" # give your spider a unique name because it will be used for crawling the webpages

    #allowed domain restricts the spider crawling
    allowed_domains=["https://edumine.wordpress.com/"]
    # in start_urls you have to specify the urls to crawl from
    start_urls=["https://edumine.wordpress.com/category/ide-configuration/environment-setup/"]

    '''
    start_urls=["https://edumine.wordpress.com/category/ide-configuration/environment-setup/",
                "https://edumine.wordpress.com/category/ide-configuration/environment-setup/page/2/",
                "https://edumine.wordpress.com/category/ide-configuration/environment-setup/page/3/"]


    rules = [
                Rule(SgmlLinkExtractor
                    (allow=("https://edumine.wordpress.com/category/ide-configuration/environment-setup/\d"),unique=False,follow=True))
            ]
'''
    rules= Rule(LinkExtractor(allow='https://edumine.wordpress.com/category/ide-configuration/environment-setup/page/'),follow=True,callback='parse_page')

    def parse_page(self, response):

        hxs=Selector(response)
        titles = hxs.xpath("//h1[@class='entry-title']")
        items = []
        with open("itemLog.csv","w") as f:
             for title in titles:
                item = BlogscraperItem()
                item["post_title"] = title.xpath("//h1[@class='entry-title']//text()").extract()
                item["post_time"] = title.xpath("//time[@class='entry-date']//text()").extract()
                item["text"]=title.xpath("//p//text()").extract()
                item["link"] = title.select("a/@href").extract()

                items.append(item)

                f.write('post title: {0}\n, post_time: {1}\n, post_text: {2}\n'.format(item['post_title'], item['post_time'],item['text']))
                print "#### \tTotal number of posts= ",len(items), " in category####"


        f.close()

有什么解决办法或建议吗？

最佳答案

您有一些可以在代码中改进的地方和两个您想要解决的问题:阅读帖子、自动抓取。

如果你想获取新博客文章的内容，你必须重新运行你的蜘蛛。否则你将陷入无限循环。当然，在这种情况下，你必须确保你没有抓取已经抓取的条目(数据库，在蜘蛛启动时读取可用文件等)。但是您不能拥有永远运行并等待新条目的蜘蛛。这不是目的。

您将帖子存储到文件中的方法是错误的。这意味着为什么要抓取项目列表然后对它们不做任何事情？为什么要将项目保存在 parse_page 函数中？为此有item pipelines ，您应该写一个并在那里进行导出。并且 f.close() 不是必需的，因为您使用 with 语句在最后为您执行此操作。

您的 rules 变量应该抛出错误，因为它不可迭代。我想知道你是否测试过你的代码。而且规则太复杂了。您可以将其简化为:

rules = [Rule(LinkExtractor(allow='page/*'), follow=True, callback='parse_page'),]

它跟在每个包含 /page 的 URL 之后。

如果您启动您的抓取工具，您会看到结果因您允许的域而被过滤:

Filtered offsite request to 'edumine.wordpress.com': <GET https://edumine.wordpress.com/category/ide-configuration/environment-setup/page/2/>

要解决此问题，请将您的域更改为:

allowed_domains = ["edumine.wordpress.com"]

如果你想获取其他wordpress站点，只需将其更改为

allowed_domains = ["wordpress.com"]

关于python - Scrapy-如何从一个类别中提取所有博客文章？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32818729/

25

4

0

文章推荐： python - 在 Python 中构建一个位串

文章推荐： python - django selenium 无法加载本地主机

python - 文章/api/文章 : Cannot import name ArticleResource 处出现导入错误
我正在尝试创建一个 Django 网站，每次在本地主机上运行/articles/api/article 页面时:我都会收到此回溯: Environment: Request Method: GET R
Facebook 开放图谱对象类型 - 文章？
我正在尽最大努力理解开放图谱协议(protocol)中的一切含义阅读 FB page在上面和 OGP Page .这在 FB 和 OGP 的世界中究竟意味着什么: Note that the Open
html - 页脚重叠内容/文章
我的 HTML/CSS 中存在页脚与文章内容重叠的问题。是的，我一直在网上搜索但似乎没有任何效果，我希望你知道它有什么问题。我在这里做了一个codepen: CodePen LINK
algorithm - 关于空间索引的好书/文章
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
javascript - 为什么函数中的变量没有传递给 HTML 文章？
我可以将变量作为警报显示在函数中，但无法将变量传递给文章。我做错了什么？我知道“a”保存了正确的信息，因为我已经通过警报显示了它。我尝试使用以下方式传递变量:placeholderContent.
ruby - Ruby 中的 A/An 文章
这个问题已经有答案了: Rails article helper - "a" or "an" (6 个回答) 已关闭 3 年前。是否有类似 [#pluralize in ActiveSupport]
ruby - Ruby 中的 A/An 文章
这个问题已经有答案了: Rails article helper - "a" or "an" (6 个回答) 已关闭 3 年前。是否有类似 [#pluralize in ActiveSupport]
mysql - 书籍-文章-图像的数据库架构建议
我有以下型号。 Book has Articles (Article has foreign key to Book) Article has Images (Article has upto #ma
php - 如何过滤多个类别并显示它的帖子/文章 PHP
我创建了一个页面，该页面显示了单个类别下的所有帖子，即如果我单击类别音乐，我将获得与音乐类别相关的所有文章。但我的目标是创建一个过滤选项，它可以过滤掉某些类别，并且只显示与您过滤的类别相关的所有帖
php - 关于从数据库中获取 Joomla 文章
我使用这样的代码: $query = "SELECT introtext FROM #__content WHERE alias = '$alias'"; $db->setQuery($query);
css - Joomla 文章/列插入填充
我在主页上设置了一些特色文章。显示的所有文章似乎都剩下太多填充。我知道足以进入 css 并在 layout.css 上编辑 .itembody 的填充或边距，但似乎没有任何改变。我希望我的文章通过模块
java - ORM:文章、修订和主要修订
ORM 中存储文章及其修订的最佳实践是什么？当我自己用SQL存储时，我曾经有以下结构: articles [id, parent_id, name, text] 通过parent_id，我可以轻松识
html - 输入单选激活时按类值激活显示 block 文章？
我的 HTML : Interest About Interest
javascript - mongodb 文章.长度未定义
我正在用jade构建一个nodejs、express、mongodb博客。我的文件夹结构是:项目/ 模块/ 观点/ 索引.jade 应用程序.js 文章提供者内存.js 文章provider-mon
string - 文章 "Matching"算法
我的问题比较具体，至少对我来说是这样。具体是因为在做了很多搜索之后我找不到任何有用的东西。因此，正如标题所说，我正在寻找一种算法，它会发现输入中给出的两篇文章是否“匹配”，但不是通常的字符串匹配意义上
algorithm - 理解动态规划的好例子、文章、书籍
关闭。这个问题是off-topic .它目前不接受答案。 9年前关闭。锁定。这个问题及其答案是locked因为这个问题是题外话，但具有历史意义。它目前不接受新的答案或互动。我无法弄清楚动态编程的原
css - 如何在两栏中 float 文章？
我有这个问题。我正在建立一个社交网站，我必须在两栏中创建帖子。父容器是一个部分，元素“post”是样式为 float: left 的文章。我如何让滑到那些较短的下方创建的空白空间的帖子？最佳答案 c
PHP - 从文件或数据库获取 HTML 文章？
这里有几个关于文件与数据库的问题，但我仍然不确定使用什么以及为什么在我的案例中应该使用它。我的网站上有很多 HTML 文章(长度在几百到几千字之间)。在数据库 (MySQL) 中，我有一个没有搜索索
文章《SemanticKernel--LangChain的替代品？》的错误和疑问探讨
微信公众号文章 Semantic Kernel —— LangChain 的替代品? [1] ，它使用的示例代码是Python ，他却发了这么一个疑问：支持的语言对比（因为 Sem
javascript - Polymer 中的循环 WordPress 文章
我想编写一个 polymer 元素来显示一些 WordPress 文章。 http://www.jsv-lippstadt.de/?json=get_category_posts&slug=app

首页

博学

6Ren·AI

商城

python - Scrapy-如何从一个类别中提取所有博客文章？