gpt4 book ai didi

涉及 HTML a 标签的 Python 网络抓取

转载 作者:太空宇宙 更新时间:2023-11-03 14:24:52 27 4
gpt4 key购买 nike

我一直在尝试使用 bsoup 脚本从网站中删除表格中的名称,但程序没有返回任何内容或返回“[]”。如果有人可以帮助我指出我做错了什么,我将不胜感激。这是我要运行的:

from bs4 import BeautifulSoup
import urllib2

url="http://www.trackinfo.com/entries-race.jsp?raceid=GBM$20140228E02"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
names=soup.findAll('a',{'href':'href="dog.jsp?runnername=[^.]*'})
for eachname in names:
print eachname.string

这是我试图获得的元素之一:

<a href="dog.jsp?runnername=PG+BAD+GRANDPA">

PG BAD GRANDPA

</a>

最佳答案

参见 documentation for BeautifulSoup , 表示如果要在搜索中给出正则表达式,则需要传入编译后的正则表达式。

获取你的变量,这就是你想要的:

import re
names = soup.find_all("a",{"href":re.compile("dog")})

关于涉及 HTML a 标签的 Python 网络抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22105437/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com