gpt4 book ai didi

python - 解析内部为空元素的元素的文本

转载 作者:太空宇宙 更新时间:2023-11-03 19:37:13 25 4
gpt4 key购买 nike

我正在尝试使用 xml.etree 将使用大量表格的 XHTML 文档转换为 Python 中的语义 XML 文档。但是,我在转换此 XHTML 时遇到了一些问题

<TD>
Textline1<BR/>
Textline2<BR/>
Textline3
</TD>

变成这样的事情

<lines>
<line>Textline1</line>
<line>Textline2</line>
<line>Textline3</line>
</lines>

问题是我不知道如何获取 BR 元素后面的文本。

最佳答案

您需要使用
元素的 .tail 属性。

import xml.etree.ElementTree as et

doc = """<TD>
Textline1<BR/>
Textline2<BR/>
Textline3
</TD>
"""

e = et.fromstring(doc)

items = []
for x in e.getiterator():
if x.text is not None:
items.append(x.text.strip())
if x.tail is not None:
items.append(x.tail.strip())

doc2 = et.Element("lines")
for i in items:
l=et.SubElement(doc2, "line")
l.text = i

print(et.tostring(doc2))

关于python - 解析内部为空元素的元素的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2959978/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com