gpt4 book ai didi

python - 使用 scrapy 从 wordpress 站点抓取

转载 作者:行者123 更新时间:2023-12-04 16:40:34 26 4
gpt4 key购买 nike

我想用 scrapy 抓取一个 wordpress 网站。我的问题是我想要标题、正文、日期和作者。作者数据未打印在正文中,全文未在简版中。所以我必须先复制作者然后访问帖子的完整版本以获取文本。我不知道如何将数据从两个 url 发送到同一个 csv 行。

所以我想访问https://www.exemple.me/news/page/1/复制作者 --> 转到第一篇文章,复制标题、日期和文本 --> 将数据存储到 csv(作者、标题、日期、文本,) --> 返回 https://www.exemple.me/news/page/1/对第二篇文章做同样的事情等等..

我知道如何使用选择器,所以我的问题是我无法将来自两个 url 的数据存储到同一行..

我可以用 selenium 和 BeautifulSoup 做到这一点,但想学习如何在 scrapy to 中做到这一点

最佳答案

可以使用cb_kwargs传递author信息:

import scrapy

class WordpressSpider(scrapy.Spider):

name = "wp"
start_urls = ['https://www.wordpresssite.com']

def parse(self, response):
for article in response.xpath('//article/selector'):
author = article.xpath('./author/selector').get()
article_url = article.xpath('./article/url/selector').get()
yield scrapy.Request(
url=article_url,
callback=self.parse_article,
cb_kwargs={
'author': author,
}
)

def parse_article(self, response, author):
title = response.xpath('//title/selector').get()
date = response.xpath('//date/selector').get()
text = response.xpath('//text/selector').get()
yield {
'title': title,
'date': date,
'text': text,
'author': author
}

关于python - 使用 scrapy 从 wordpress 站点抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61797582/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com