- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我需要对其中一个标签内的文本进行一些操作,并希望为其找到的每个文本节点获取父标签
代码:
import lxml.etree
import pprint
s = '''
<data>
data text
<foo>foo - <bar>bar</bar> text</foo>
data text
<bar>
bar text
<baz>baz text</baz>
<baz>baz text</baz>
bar text
</bar>
data text
</data>
'''
etree = lxml.etree.fromstring(s)
text = etree.xpath("//text()[normalize-space()]")
pprint.pprint([(s.getparent().tag, s.strip()) for s in text])
输出:
[('data', 'data text'),
('foo', 'foo -'),
('bar', 'bar'),
('bar', 'text'),
('foo', 'data text'),
('bar', 'bar text'),
('baz', 'baz text'),
('baz', 'baz text'),
('baz', 'bar text'),
('bar', 'data text')]
我预计:
[('data', 'data text'),
('foo', 'foo -'),
('bar', 'bar'),
('foo', 'text'),
('data', 'data text'),
('bar', 'bar text'),
('baz', 'baz text'),
('baz', 'baz text'),
('bar', 'bar text'),
('data', 'data text')]
我的错误在哪里?看起来像我输出中的标签 - 不是树中文本的父标签,而只是前一个标签。
编辑满足我需要的工作代码:
etree = lxml.etree.fromstring(s)
text = etree.xpath("//text()[normalize-space()]")
for s in text:
if s.is_tail:
print(s.getparent().getparent().tag, s.strip())
else:
print(s.getparent().tag, s.strip())
最佳答案
您所看到的与 tail
有关属性(紧跟在结束标记之后的文本),这是 ElementTree 和 lxml 表示 XML 的方式的一个特性。
通过添加 is_tail
测试(返回 True
如果文本是“尾部文本”)到您的代码,您可以看到发生了什么:
import lxml.etree
import pprint
s = '''
<data>
data text
<foo>foo - <bar>bar</bar> text</foo>
data text
<bar>
bar text
<baz>baz text</baz>
<baz>baz text</baz>
bar text
</bar>
data text
</data>
'''
etree = lxml.etree.fromstring(s)
text = etree.xpath("//text()[normalize-space()]")
pprint.pprint([(s.getparent().tag, s.is_tail, s.strip()) for s in text])
输出:
[('data', False, 'data text'),
('foo', False, 'foo -'),
('bar', False, 'bar'),§
('bar', True, 'text'),
('foo', True, 'data text'),
('bar', False, 'bar text'),
('baz', False, 'baz text'),
('baz', False, 'baz text'),
('baz', True, 'bar text'),
('bar', True, 'data text')]
关于python - 为什么 getparent() 没有按预期工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31770189/
我对java有点陌生,所以如果我犯了一个简单的错误,请原谅我,但我不确定我哪里出错了,我收到的错误是“预期的.class,预期的标识符,而不是声明, ';'预期的。”我尝试了不同的方法,并从这些方法中
This question already has answers here: chai test array equality doesn't work as expected (3个答案) 3年前
我正在学习 Java(对不起,我的英语很差,这不是我的母语),当我在 Eclipse (JavaSE-1.7) 中在我输入的每个“try”中执行“try-finally” block 时,会出现以下消
我收到两个错误,指出 token 上的语法错误,ConstructorHeaderName expected instead & token “(”上的语法错误,< expected 在线: mTM.
我找不到错误。 Eclipse 给我这个错误。每个 { } 都是匹配的。请帮忙。 Multiple markers at this line - Syntax error on token “)”,
代码: import java.awt.*; import javax.swing.*; import java.awt.event.*; public class DoubleIt extends
我正在用 python(Vs 代码)编写代码,但出现此错误: Expected ")" Pylance 错误发生在:def main() 我试着运行我的 main 并将它打印到我的屏幕上。我用谷歌搜
我正在尝试按照 documentation 中的建议使用异步函数。但我收到此错误 意外的 token ,预期 ( async function getMoviesFromApi() { try
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。 想改善这个问题吗?更新问题,以便将其作为on-topic
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。 想改善这个问题吗?更新问题,以便将其作为on-topic
第一行包含一个表示数组长度的整数p。第二行包含用空格分隔的整数,这些整数描述数组中的每个元素。第三行打印一个整数,指示负数组的数量。 package asgn3; import java.util.*
好的,我是初学者,我必须修复此 java 表达式语言代码才能在我的系统 (Windchill) 中工作,但看起来我在语法中遗漏了一些内容: LWCNormalizedObject lwc =
我无法编译我的程序! 我想我缺少一个花括号,但我怎么也看不出在哪里! import javax.swing.*; import java.awt.*;
我的 jQuery 代码有问题,我的 Firebug 向我发出警告:需要选择器。 这是代码: $("img[id$='_tick']").each(function() { $(this).c
我的新类(class) Fountainofyouth 遇到了问题。尝试构建整个项目后,调试器显示 warning: extended initializer lists only available
我已经从 Java 转向 CPP,并且正在努力围绕构造构造函数链进行思考,我认为这是我的问题的根源。 我的头文件如下: public: GuidedTour(); GuidedTour(string
鉴于以下 for(var i=0; i< data.cats.length; i++) list += buildCategories(data.cats[i]); jsLint 告诉我 Expect
我有这个 json,但 Visual Studio Code 在标题中给了我警告。 [ { "title": "Book A", "imageUrl": "https:
我正在尝试编写一个有条件地禁用四个特殊成员函数(复制构造、移动构造、复制赋值和移动赋值)的包装类,下面是我用于测试目的的快速草稿: enum class special_member : uint8_
所以我用 F# 编写了一个非常简单的程序,它应该对 1000 以下的所有 3 和 5 的倍数求和: [1..999] |> List.filter (fun x -> x % 3 = 0 || x %
我是一名优秀的程序员,十分优秀!