gpt4 book ai didi

python - 网页抓取表格的内容

转载 作者:行者123 更新时间:2023-12-01 01:12:28 25 4
gpt4 key购买 nike

嗨,我正在尝试使用 Python 和 Beautiful Soup 来抓取网页。网页中有各种表格,其中包含我想要的结果,但我正在努力:1)找到合适的表2)找到正确的两个单元格3)将单元格1和2分别写入字典键和值。

到目前为止,在发出请求并解析 HTML 后,我使用:

URL='someurl.com'

def datascrape(url):
page=requests.get(url)
print ("requesting page")
soup = BeautifulSoup(page.content, "html.parser")
return(soup)

soup=datascrape(URL)

results = {}
for row in soup.findAll('tr'):
aux = row.findAll('td')
try:
if "Status" in (aux.stripped_strings):
key=(aux[0].strings)
value=(aux[1].string)
results[key] = value
except:
pass
print (results)

不幸的是“结果”总是空的。我真的不知道我哪里错了。谁能帮我解答一下吗?

最佳答案

我不确定为什么你使用 findAll() 而不是 find_all(),因为我对网络抓取相当陌生,但尽管如此,我认为这可以为你提供你正在寻找的输出。

URL='http://sitem.herts.ac.uk/aeru/bpdb/Reports/2070.html'
def datascrape(url):
page=requests.get(url)
print ("requesting page")
soup = BeautifulSoup(page.content,
"html.parser")
return(soup)

soup=datascrape(URL)

results = {}
table_rows = soup.find_all('tr')
for tr in table_rows:
td = tr.find_all('td')
row = [i.text for i in td]
try:
for i in row:
if "Status" in i:
key=(row[0].strip())
value=(row[1].strip())
results[key] = value
else:
pass
print(results)

希望这有帮助!

关于python - 网页抓取表格的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54724757/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com