gpt4 book ai didi

python - 使用 Python 抓取 RSS 提要

转载 作者:太空宇宙 更新时间:2023-11-03 13:04:15 25 4
gpt4 key购买 nike

我是 Python 和一般编程的新手,所以如果问题很愚蠢,请原谅。

我一直在关注 this关于 RSS 抓取的逐步教程,但在尝试收集指向所收集文章标题的相应链接时,我从 Python 收到“列表索引超出范围”错误。

这是我的代码:

from urllib import urlopen
from BeautifulSoup import BeautifulSoup
import re

source = urlopen('http://feeds.huffingtonpost.com/huffingtonpost/raw_feed').read()

title = re.compile('<title>(.*)</title>')
link = re.compile('<link>(.*)</link>')

find_title = re.findall(title, source)
find_link = re.findall(link, source)

literate = []
literate[:] = range(1, 16)

for i in literate:
print find_title[i]
print find_link[i]

当我只告诉它检索标题时,它执行得很好,但当我想检索标题它们的相应链接时,它会立即抛出一个索引错误。

如有任何帮助,我们将不胜感激。

最佳答案

你可以使用 feedparser module to parse an RSS feed from a given url :

#!/usr/bin/env python
import feedparser # pip install feedparser

d = feedparser.parse('http://feeds.huffingtonpost.com/huffingtonpost/latestnews')
# .. skipped handling http errors, cacheing ..

for e in d.entries:
print(e.title)
print(e.link)
print(e.description)
print("\n") # 2 newlines

输出

Even Critics Of Safety Net Increasingly Depend On It
http://www.huffingtonpost.com/2012/02/12/safety-net-benefits_n_1271867.html
<p>Ki Gulbranson owns a logo apparel shop, deals in
<!-- ... snip ... -->

Christopher Cain, Atlanta Anti-Gay Attack Suspect, Arrested And
Charged With Aggravated Assault And Robbery
http://www.huffingtonpost.com/2012/02/12/atlanta-anti-gay-suspect-christopher-cain-arrested_n_1271811.html
<p>ATLANTA -- Atlanta police have arrested a suspect
<!-- ... snip ... -->

使用 regular expressions to parse rss(xml) 可能不是一个好主意.

关于python - 使用 Python 抓取 RSS 提要,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9252653/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com