gpt4 book ai didi

python - 从网站上抓取表数据

转载 作者:太空宇宙 更新时间:2023-11-04 09:09:41 25 4
gpt4 key购买 nike

我正在尝试使用 BeautifulSoup4 和 Python 从网站上抓取表格数据,然后使用结果创建一个 Excel 文档。到目前为止,我有这个:

import urllib2
from bs4 import BeautifulSoup

soup = BeautifulSoup(urllib2.urlopen('http://opl.tmhp.com/ProviderManager/SearchResults.aspx?TPI=&OfficeHrs=4&ProgType=STAR&UCCIndicator=No+Preference&Cnty=&NPI=&Srvs=6&Age=All&Gndr=B&SortBy=Distance&ZipCd=78552&SrvsOfrd=0&SpecCd=0&Name=&CntySrvd=0&Plan=H3&WvrProg=0&SubSpecCd=0&AcptPnt=Y&Rad=200&LangCd=99').read())

for row in soup('table', {'class' : 'spad'})[0].tbody('tr'):
tds = row('td')
print tds[0].string, tds[1].string

但它无法显示数据。

有什么想法吗?

最佳答案

首先该类是StandardResultsGrid,而不是spad

其次,您不需要 tbody 东西。只需使用:

for row in soup('table', {'class' : 'StandardResultsGrid'})[0]('tr'):

另请注意,由于在由于某些原因,带有标题的原始页面包含在 tbody 中,您必须跳过第一行,所以

for row in soup('table', {'class' : 'StandardResultsGrid'})[0]('tr')[1:]

请注意,有些单元格中包含 table,因此您必须仔细解析 td 的内容。

关于python - 从网站上抓取表数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16762824/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com