gpt4 book ai didi

python - beautifulsoup 不打印链接

转载 作者:太空宇宙 更新时间:2023-11-04 01:10:45 25 4
gpt4 key购买 nike

我正在废弃 rss

from bs4 import BeautifulSoup
import urllib2
import requests


url = raw_input("");
re=requests.get(url);

def rss_get_items(url):
request = urllib2.Request(url)
response = urllib2.urlopen(request)
soup = BeautifulSoup(response)

for item_node in soup.find_all('item'):
item = {}
for subitem_node in item_node.findChildren():
key = subitem_node.name
value = subitem_node.text
item[key] = value
yield item

if __name__ == '__main__':
for item in rss_get_items(url):
print item['title']
print item['pubdate']
print item['link']
print item['guid']
print item['description']

我从这个网站上发布的答案中得到了这个脚本的一部分,我只是给了这个人积分。我忘记了原始帖子和发布它的用户的姓名。不管怎样,我无法打印链接,它就是不起作用,我想知道为什么。

我可以按照文档做

for link in soup.find_all('a'):
print(link.get('href'))
# http://example.com/elsie
# http://example.com/lacie
# http://example.com/tillie

那是可行的,但出于好奇,我只想知道第一种方法是否适用于打印链接,只是出于好奇。

我正在使用 aljazeera.com rss

最佳答案

当您抓取 xml 内容时,请使用 xml 解析器来创建您的 soup。

soup = BeautifulSoup(response, 'xml')

关于python - beautifulsoup 不打印链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27851487/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com