gpt4 book ai didi

Python lxml/beautiful soup 查找一个网页上的所有链接

转载 作者:太空狗 更新时间:2023-10-29 21:21:28 25 4
gpt4 key购买 nike

我正在编写一个脚本来读取网页,并建立一个符合特定条件的链接数据库。现在我坚持使用 lxml 并了解如何获取所有 <a href>来自 html...

result = self._openurl(self.mainurl)
content = result.read()
html = lxml.html.fromstring(content)
print lxml.html.find_rel_links(html,'href')

最佳答案

使用 XPath。类似的东西(无法从这里测试):

urls = html.xpath('//a/@href')

关于Python lxml/beautiful soup 查找一个网页上的所有链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6131089/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com