gpt4 book ai didi

python - 如何使用scrapy解析xml

转载 作者:太空宇宙 更新时间:2023-11-03 21:11:15 25 4
gpt4 key购买 nike

如何使用 scrapy 抓取 XML。

我的 XML 看起来像这样:

    <rss xmlns:media="http://search.yahoo.com/mrss/" version="2.0">
<channel>
<generator>NFE/5.0</generator>
<title>"python" - Google News</title>
<link>
https://news.google.com/search?q=python&hl=en-IN&gl=IN&ceid=IN:en
</link>
<language>en-IN</language>
<webMaster>news-webmaster@google.com</webMaster>
<copyright>2019 Google Inc.</copyright>
<lastBuildDate>Thu, 07 Mar 2019 16:48:55 GMT</lastBuildDate>
<description>Google News</description>
<item>
<title>
Brown snake attacks python eating a rat - NEWS.com.au
</title>
</channel>
</rss>

我的代码如下所示:

from scrapy.spiders import XMLFeedSpider
from scrapy.http import HtmlResponse
from scrapy.selector import Selector


response = HtmlResponse(url='https://news.google.com/rss/search?q=python&hl=en-IN&gl=IN&ceid=IN:en')
xxs = Selector(response)
obj = xxs.xpath('//title/text()').extract()

我想获取标题标签中的文本。但这里我得到一个空列表。请帮帮我。这一点很重要。非常感谢

最佳答案

robots.txt 禁止您。您需要在 settings.py 中更改此行为,并将 ROBOTSTXT_OBEY=True 更改为 ROBOTSTXT_OBEY=False

关于python - 如何使用scrapy解析xml,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55049168/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com