gpt4 book ai didi

python - 如何将 Html 嵌套列表转换为 Python 嵌套列表

转载 作者:行者123 更新时间:2023-12-01 06:03:17 25 4
gpt4 key购买 nike

我有这样的 Html 列表:

lista = """
<ul>
<li>Arts &amp; Entertainment
<ul>
<li>Celebrities &amp; Entertainment News</li>
<li>Comics &amp; Animation
<ul>
<li>Anime &amp; Manga</li>
<li>Cartoons</li>
<li>Comics</li>
</ul>
</li>
</ul>
</li>
</ul>

"""

我想将其转换为有用的 python 结构以进行进一步处理:

你建议采用什么结构?你会怎么做?

最佳答案

BeautifulSoup ,我会做这样的事情:

from BeautifulSoup import BeautifulSoup
from pprint import pprint

def parseList(tag):
if tag.name == 'ul':
return [parseList(item)
for item in tag.findAll('li', recursive=False)]
elif tag.name == 'li':
if tag.ul is None:
return tag.text
else:
return (tag.contents[0].string.strip(), parseList(tag.ul))

soup = BeautifulSoup(lista)
pprint(parseList(soup.ul))

示例输出:

[(u'Arts &amp; Entertainment',
[u'Celebrities &amp; Entertainment News',
(u'Comics &amp; Animation',
[u'Anime &amp; Manga', u'Cartoons', u'Comics'])])]

请注意,对于包含未编号列表的列表项,将返回一个元组,其中第一个元素是列表项中的字符串,第二个元素是包含未编号列表内容的列表。

关于python - 如何将 Html 嵌套列表转换为 Python 嵌套列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9249151/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com