python - 如何用lxml提取p标签中的所有内容？-6ren

python - 如何用lxml提取p标签中的所有内容？

转载作者：太空宇宙更新时间：2023-11-03 15:04:19

共有三个xyz和两个<br>标记在以下 html 片段中。
我想解析它并提取 p 标签中的所有内容。

import lxml.html
strings = """<p> xyz <br>　
xyz <br>　xyz  </p>"""
root=lxml.html.document_fromstring(strings)
texts = root.xpath('//p')
for i,content in enumerate(texts):
    print(i,"    ",content.text)

结果不是我想要的。

0       xyz

如何用lxml提取p标签中的所有内容？
为什么我的代码无法使用lxml提取p标签中的所有内容(三个xyz)？

最佳答案

使用 content.text_content() 而不是content.text 。

我得到这个输出:

0       xyz 　
xyz 　xyz

content.text只给你 xyz是 <p> 的直接子级的字符串。另外两个xyz :es 存储在 tail 中每个<br>元素。

关于python - 如何用lxml提取p标签中的所有内容？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44793637/

文章推荐： python - 获取日期和时间的时间戳

文章推荐： c# - 设置 SSL 与使用 DLL 进行身份验证登录

文章推荐： c# - 激活作为 AutomationElement 检索的 TabControl 中的选项卡

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何用lxml提取p标签中的所有内容？