gpt4 book ai didi

python - 用 beautifulsoup 中的链接拆分一个逗号分隔的列表

转载 作者:行者123 更新时间:2023-11-28 20:00:02 25 4
gpt4 key购买 nike

我在 HTML 文档的表格单元格中有一个逗号分隔的列表,但列表中的某些项目是链接的:

<table>
<tr>
<td>Names</td>
<td>Fred, John, Barry, <a href="http://www.example.com/">Roger</a>, James</td>
</tr>
</table>

我一直在使用 beautiful soup 来解析 html,我可以得到表格,但是拆分它并返回大致如下的数据结构的最佳方法是什么:

[
{'name':'Fred'},
{'name':'John'},
{'name':'Barry'},
{'name':'Roger', 'url':'http://www.example.com/'},
{'name':'James'},
]

最佳答案

这是您可以做到的一种方式:

import BeautifulSoup

soup = BeautifulSoup.BeautifulSoup('''<table>
<tr>
<td>Names</td>
<td>Fred, John, Barry, <a href="http://www.example.com/">Roger</a>, James</td>
</tr>
</table>''')

result = []
for tag in soup.table.findAll('td')[1]:
if isinstance(tag, BeautifulSoup.NavigableString):
for name in tag.string.split(','):
name = name.strip()
if name:
result.append({ 'name': name })
else:
result.append({ 'name': tag.string.strip(), 'url': tag["href"] })

print result

关于python - 用 beautifulsoup 中的链接拆分一个逗号分隔的列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1834779/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com