python - 如果文本有 ，lxml 不会获取元素中的所有文本？-6ren

python - 如果文本有
，lxml 不会获取元素中的所有文本？

转载作者：太空宇宙更新时间：2023-11-04 01:07:41

25

4

我正在使用 lxml解析 web 文档，我想获取  中的所有文本元素，所以我使用如下代码:

from lxml import etree

page = etree.HTML("<html><p>test1 <br /> test2</p></html>")
print page.xpath("//p")[0].text    # this just print "test1" not "test1 <br/> test2"

问题是我想获取  中的所有文本这是test1 test2在示例中，但是 lxml给我test1 .

如何获取  中的所有文本？元素？

最佳答案

其他几种可能的方式:

p = page.xpath("//p")[0]
print etree.tostring(p, method="text")

或使用 XPath string() 函数(注意 XPath 位置索引从 1 而不是 0 开始):

page.xpath("string(//p[1])")

关于python - 如果文本有 ，lxml 不会获取元素中的所有文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29555452/

25

4

0

文章推荐： c - char * 数组转换为 char *

文章推荐： c - 我迷路了，我的输出不正确 (C)

文章推荐： python - NoReverseMatch Django 教程 1.8

html - Mozilla 将

翻译成

我们的 CMS 将换行符输出为 (愚蠢，我知道，但在语法上是正确的(？)) 这转换为在 chrome 和 IE10 中到在火狐中。所有浏览器都将其显示为两个换行符。为什么不是翻译成或者只是
java - 尝试将
、
、
标签替换为

我正在尝试将一堆 HTML 文档转换为 XML 合规性(通过 java 方法)，并且有很多 (1) 未封闭或 (2) 包含属性的标签。由于某种原因，我使用的正则表达式无法处理包含属性的标签。这是代码
java - 如何使用 java 的 String.replaceAll(String, String) 方法将 "

"之类的字符串转换为 "
"？
如何转换字符串 "" to "" using java's String.replaceAll(String, String) method? 我都试过了: str.replaceAll("+
HTML 5 : Is it
,
，还是
？
这个问题的答案是 community effort 。编辑现有答案以改进这篇文章。它目前不接受新的答案或交互。我试过检查 other answers ，但我仍然感到困惑——尤其是在看到 W3scho
linux - Vagrant中的Kafka集群(ZK、BR、BR、BR)无法建立连接
问题是我无法通过生产者脚本将消息发送到集群内的任何代理。该设置是一个单一的 Zookeeper 服务器，使用默认设置在 IP (192.168.10.2:2181) 上运行。此外，还有 3 个代理
python - Beautiful Soup 4中如何处理

和
？
我正在尝试使用 python 和 Beautiful Soup 4 用新行替换某些 html 中的每个中断标记。该文档有 , 和标签，但由于 Beautiful Soup 处理标签的方式，每当它找到
javascript -

生成并仅在 Inspect Element 中显示
我正在使用带有模板工具包的 perl 生成网页，我在 HTML 文件上更改了一些 JS 代码，编辑后有显示在 UI 上，我不知道如何，奇怪的是没有源码中，只有在Inspect element On
html - 为什么
与 XHTML 中的

不同？
这是 HTML 页面的完整源代码: one two three four 谁能解释一下为什么我在IE8或chrome浏览页面时，“三”和“四”之间多了一个空行？我认为标准应该让所有
html -
在 firefox 中被读取为

但在 chrome 中不是
我正在使用并且它按预期在 chrome 和 IE 中正常工作，但在 firefox 中结果很奇怪。当我在 firefox 中看到代码时，它替换了与 . 我还在某处读到替代语法 XML 允许在许
c# 正则表达式将
或 [br/] 替换为 [pre=html]code[br/]code[/pre] 之间的 "\n"
我有将 BBCode 替换为 html 的代码，当我想替换标签时出现问题或 [br /]在 [pre=html] code [/pre] 内. Regex exp; string str; str
regex - 使用正则表达式匹配字符串中的
或

这个问题不太可能对任何 future 的访客有帮助；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于互联网的全局受众。如需帮助使这个问题更广泛适用，visit the h
jquery - 将所有
替换为

我正在使用这个(jQuery)来替换所有与清除验证错误: $("").replaceAll(""); 但它不会减少任何验证错误。验证器是否检查原始来源？最佳答案 JQuery 仅在文档呈现后才
java - 如何让文本用

换行
我想获取 break html 中的文本，但这不是用段落换行，只是break内的文本。 Division 是我唯一的标识符，它是“Msg”。我怎样才能获得每个元素之一？ H
html -
不换行，查看源代码也显示

Hood switch - (automatic transmission only). Hood Switch (2013 CX-5 - not requir
CSS 选择 br 后面没有 br
我想选择 br 后面没有跟另一个 br 的元素。例如。 sometextadsf 我想选择这两个元素。 sometextadsf 我只想选择 2 个 br 元素，而不是 4 个。我看过这个问题，但
html - 使用
而不是

这个问题在这里已经有了答案: HTML 5: Is it , , or ? (18 个答案) 关闭 9 年前。当我开始从 w3schools 学习 HTML 时，他们正在使用这个 .当我开始学习
linux -
如何在nagios中安装nagios check_procs插件

我是 nagios 新手，我已经在我的 Linux 机器上安装了 nagios 3。我想安装 nagios check_procs 插件。有人可以建议我吗。谢谢最佳答案您可以从依赖于您使用的 L
javascript - 删除段落中的单个 br 但不删除双 br？
我有一个段落有一些单一的和双 . 我想添加所有单个 , 但不是双 . 这怎么可能？如果我用 p br {display:none} 它隐藏了所有的 br 标签。但是，当我有两个 br 时，我希
html -
和
的主要区别是什么
之间的主要区别是什么？和在 html 标记中？有人可以解释两者的主要区别，因为这让我感到困惑。预先感谢您的所有评论。 :) 最佳答案在实践中，不存在。就或 . 但是，区别在于位置，并且对所有
javascript - 将多个
替换为一个

我如何使用JavaScript来检测成为一个 ? 我试过: jQuery('body').html().replace(/(\\r\n){3, }/g,"\n"); 但这对我不起作用。最佳

首页

博学

6Ren·AI

商城

python - 如果文本有
，lxml 不会获取元素中的所有文本？

首页

博学

6Ren·AI

商城

python - 如果文本有 ，lxml 不会获取元素中的所有文本？

python - 如果文本有
，lxml 不会获取元素中的所有文本？