gpt4 book ai didi

python - 使用 Python 从 HTML 中提取数据

转载 作者:太空狗 更新时间:2023-10-29 13:21:30 30 4
gpt4 key购买 nike

我的 Python 代码处理了以下文本:

<td>
<a href="http://www.linktosomewhere.net" title="title here">some link</a>
<br />
some data 1<br />
some data 2<br />
some data 3</td>

你能告诉我如何从 <td> 中提取数据吗? ?我的想法是将其放入格式如下的 CSV 文件中:some link, some data 1, some data 2, some data 3 .

我预计如果没有正则表达式,这可能会很困难,但实际上我仍然在与正则表达式作斗争。

我或多或少地以下列方式使用我的代码:

tabulka = subpage.find("table")

for row in tabulka.findAll('tr'):
col = row.findAll('td')
print col[0]

理想情况下是让每个 td 竞争在某个数组中。上面的 html 是 python 的结果。

最佳答案

获取BeautifulSoup并使用它。太棒了。

$> easy_install pip
$> pip install BeautifulSoup
$> python
>>> from BeautifulSoup import BeautifulSoup as BS
>>> import urllib2
>>> html = urllib2.urlopen(your_site_here)
>>> soup = BS(html)
>>> elem = soup.findAll('a', {'title': 'title here'})
>>> elem[0].text

关于python - 使用 Python 从 HTML 中提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17126686/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com