gpt4 book ai didi

python - Python 中的递归与 Beautiful Soup

转载 作者:行者123 更新时间:2023-12-01 05:39:55 24 4
gpt4 key购买 nike

所以我可能只是在这里很愚蠢,不了解Python的基 native 制,但我正在尝试浏览并爬行网页,然后获取新链接并继续递归。这是一个粗略的分割:

def go_to_next_page(soup, data, curr_link):
print "Curr Link: " + curr_link
# gather information and append to data
new_link = "" # unless I find link with Beautiful Soup

if new_link is not "":
print "Next Link: " + new_link
new_soup = BeautifulSoup(mechanize.urlopen(new_link))
data = go_to_next_page(new_soup, data, new_link)
return data

但是当它第二次进入时,它并没有创建一个新的Soup,然后就没有数据可以收集了。

这是一个 Beautiful Soup 问题,还是我在 Python 中做的递归错误

最佳答案

您没有获取该页面的内容。 BeautifulSoup不会为你检索html内容,你必须自己检索它。您应该将页面内容或文件对象传递给 BeautifulSoup:

import urllib2
f = urllib2.urlopen(new_link)
soup = BeautifulSoup(f) # or soup = BeautifulSoup(f.read())

关于python - Python 中的递归与 Beautiful Soup,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17871542/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com