gpt4 book ai didi

Python HTML 抓取

转载 作者:搜寻专家 更新时间:2023-10-31 21:53:23 29 4
gpt4 key购买 nike

这并不是真正的抓取,我只是想在网页中找到类具有特定值的 URL。例如:

<a class="myClass" href="/url/7df028f508c4685ddf65987a0bd6f22e">

我想获取 href 值。关于如何做到这一点的任何想法?也许正则表达式?你能发布一些示例代码吗?我猜 html 抓取库,比如 BeautifulSoup,只是为了这个有点矫枉过正......

非常感谢!

最佳答案

正则表达式通常不是一个好主意,尝试使用 BeautifulSoup

简单示例:

html = #get html
soup = BeautifulSoup(html)
links = soup.findAll('a', attrs={'class': 'myclass'})
for link in links:
#process link

关于Python HTML 抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1793663/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com