gpt4 book ai didi

python - 即使显示更多链接,也能从 html 获取所有链接

转载 作者:行者123 更新时间:2023-11-30 23:38:00 25 4
gpt4 key购买 nike

我正在使用 python 和 beautifulsoup 进行 html 解析。

我正在使用以下代码:

from BeautifulSoup import BeautifulSoup
import urllib2
import re

url = "http://www.wikipathways.org//index.php?query=signal+transduction+pathway&species=Homo+sapiens&title=Special%3ASearchPathways&doSearch=1&ids=&codes=&type=query"

main_url = urllib2.urlopen(url)
content = main_url.read()
soup = BeautifulSoup(content)

for a in soup.findAll('a',href=True):
print a[href]

但我没有得到如下输出链接: http://www.wikipathways.org/index.php/Pathway:WP26

还有一点很重要,那就是有 107 条路径。但我不会获得所有链接,因为其他链接取决于页面底部的“显示链接”。

那么,我怎样才能从该网址获取所有链接(107 个链接)?

最佳答案

您的问题是第 8 行,content = url.read()。您实际上并没有在阅读该网页,您实际上只是什么也没做(如果有的话,您应该会收到错误)。

main_url 是您要读取的内容,因此将第 8 行更改为:

content = main_url.read()

您还有另一个错误,print a[href]href 应该是一个字符串,所以它应该是:

print a['href']

关于python - 即使显示更多链接,也能从 html 获取所有链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14917736/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com