gpt4 book ai didi

python - 如何用lxml提取p标签中的所有内容?

转载 作者:太空宇宙 更新时间:2023-11-03 15:04:19 24 4
gpt4 key购买 nike

共有三个xyz和两个<br>标记在以下 html 片段中。
我想解析它并提取 p 标签中的所有内容。

import lxml.html
strings = """<p> xyz <br> 
xyz <br> xyz </p>"""
root=lxml.html.document_fromstring(strings)
texts = root.xpath('//p')
for i,content in enumerate(texts):
print(i," ",content.text)

结果不是我想要的。

0       xyz 

如何用lxml提取p标签中的所有内容?
为什么我的代码无法使用lxml提取p标签中的所有内容(三个xyz)?

最佳答案

使用 content.text_content() 而不是content.text

我得到这个输出:

0       xyz  
xyz  xyz

content.text只给你 xyz<p> 的直接子级的字符串。另外两个xyz :es 存储在 tail 中每个<br>元素。

关于python - 如何用lxml提取p标签中的所有内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44793637/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com