gpt4 book ai didi

Python lxml,在输出 HTML 之前移除父元素(使用 fragment_fromstring)

转载 作者:行者123 更新时间:2023-11-28 17:46:34 25 4
gpt4 key购买 nike

我正在使用 lxml 解析一些 HTML 片段(来自 RSS 提要),为了高效地执行此操作,我使用了 create_parent='div'。当我稍后输出 HTML 时,我不希望包含父 div,因为在我的 html 布局中,它最终成为 div 中的 div,完全没有必要。

现在的代码:

from lxml.html import fragment_fromstring

html = fragment_fromstring(html_string, create_parent = 'div')

for tag in html.xpath('//*[@class]'):
tag.attrib.pop('class')
for tag in html.xpath('//*[@id]'):
tag.attrib.pop('id')

return lxml.html.tostring(html)

TL;DR:如何在输出时删除包装 div?

最佳答案

提取子元素。

return '\n'.join(lxml.html.tostring(x) for x in html.iterchildren())

关于Python lxml,在输出 HTML 之前移除父元素(使用 fragment_fromstring),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17381273/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com