gpt4 book ai didi

python - 如果文本有
,lxml 不会获取元素中的所有文本?

转载 作者:太空宇宙 更新时间:2023-11-04 01:07:41 24 4
gpt4 key购买 nike

我正在使用 lxml解析 web 文档,我想获取 <p> 中的所有文本元素,所以我使用如下代码:

from lxml import etree

page = etree.HTML("<html><p>test1 <br /> test2</p></html>")
print page.xpath("//p")[0].text # this just print "test1" not "test1 <br/> test2"

问题是我想获取 <p> 中的所有文本这是test1 <br /> test2在示例中,但是 lxml给我test1 .

如何获取 <p> 中的所有文本?元素?

最佳答案

其他几种可能的方式:

p = page.xpath("//p")[0]
print etree.tostring(p, method="text")

或使用 XPath string() 函数(注意 XPath 位置索引从 1 而不是 0 开始):

page.xpath("string(//p[1])")

关于python - 如果文本有 <br/>,lxml 不会获取元素中的所有文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29555452/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com