python - 解析 lxml.etree._Element 内容-6ren

python - 解析 lxml.etree._Element 内容

转载作者：太空狗更新时间：2023-10-30 02:34:21

24

4

我从 <table> 中解析出以下元素

<td align="center" valign="top">
  <a href="ConfigGroups.aspx?cfgID=451161&amp;prjID=11778&amp;grpID=DTST" 
    target="_blank">
    5548U
  </a><br/>Power La Vaca<br/>(M8025K)<br/>Linux 4.2.x.x<br/>
</td>

我正在尝试从此元素(包括空格)中提取“55488 Power La Vaca (8025K) Linux 4.2.x.x”。

import lxml.etree as ET
td_html = """
<td align="center" valign="top">
  <a href="ConfigGroups.aspx?cfgID=451161&amp;prjID=11778&amp;grpID=DTST" 
    target="_blank">
    5548U
  </a><br/>Power La Vaca<br/>(M8025K)<br/>Linux 4.2.x.x<br/>
</td>
"""

td_elem = ET.fromstring(td_html)

fail_1 = td_elem.find('a').text + td_elem.text
print "FAIL_1", fail_1

print "FAIL_2"
for elem in td_elem.iterchildren():
    print elem.tag, elem.text

结果

$ python textxml.py

FAIL_1
    5548U


FAIL_2
a
    5548U

br None
br None
br None
br None
$

问题

我不得不问这个问题，这让我感到羞愧，因为它看起来并不难。

如何从 td_elem 中提取“Power La Vaca (8025K) Linux 4.2.x.x”元素(包括空格)？

请不要使用正则表达式解决方案。

解决方案

显式解决方案(使用 Finn 的建议 itertext() ):

import lxml.etree as ET
td_html = """
<td align="center" valign="top">
  <a href="ConfigGroups.aspx?cfgID=451161&amp;prjID=11778&amp;grpID=DTST" 
    target="_blank">
    5548U
  </a><br/>Power La Vaca<br/>(M8025K)<br/>Linux 4.2.x.x<br/>
</td>
"""

td_elem = ET.fromstring(td_html)
print "SUCCESS", ' '.join([txt.strip() for txt in td_elem.itertext()])

最佳答案

我知道一定有更好的方法，但这行得通。

link = td_elem.find('a').text.strip()
text = ''.join(td_elem.itertext()).strip()
text.split(link)[1]

输出是 Power La Vaca(M8025K)Linux 4.2.x.x

更新:如果你想用空格代替那些<br>，这实际上更好。

' '.join(map(str, [el.tail for el in td_elem.iterchildren() if el.tail]))

map str这实际上并不需要，但我可以想象它的其他值(value)。

关于python - 解析 lxml.etree._Element 内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8729997/

24

4

0

文章推荐： python - 自定义web2py注册

文章推荐： python - Python中按近似比例分配元素

文章推荐： python - 带有整数参数的 Optparse

文章推荐： python - 处理上传的图像 zip 时出现 HTTP 504

python - lxml中 `etree.fromstring()`和 `etree.XML()`的功能区别是什么？
lxml提供了一些不同的函数来解析字符串。其中两个，etree.fromstring()和 etree.XML() ，看起来很像。前者的文档字符串说它用于解析“字符串”，而后者是“字符串常量”。此外，
python - 如何使用 xml.etree 解析外部实体，如 lxml.etree
我有一个使用 lxml.etree 解析 XML 的脚本: from lxml import etree parser = etree.XMLParser(load_dtd=True, resolve
python - xml.etree.ElementTree 与 lxml.etree : different internal node representation?
我一直在将我的一些原始 xml.etree.ElementTree (ET) 代码转换为 lxml.etree (lxmlET )。幸运的是，两者之间有很多相似之处。但是，我确实偶然发现了一些我在任
python - lxml.etree 和 xml.etree.ElementTree 添加没有前缀的命名空间(ns0、ns1 等)
是否有任何解决方案可以添加不带前缀的命名空间(我的意思是这些 ns0、ns1)，它们适用于所有 etree 实现，或者每个实现都有可行的解决方案？目前我有以下解决方案: lxml - 元素的 nsm
python Alexa结果解析与lxml.etree
我正在使用 aws 的 Alexa api，但我发现很难解析结果以获得我想要的内容 alexa api 返回一个对象树我使用此代码来打印树 from lxml import etree root
python导入xml不包含xml.etree.ElementTree
当涉及到模块/库时，为了可读性，我喜欢在 python 中使用完整的命名空间。我想知道为什么这对 xml 库不起作用。我认为 import xml 还将导入 etree 和命名空间中的所有其他内容。至
python - etree 对象的所有元素的简单循环？
我有一个从 etree 元素返回列表的函数，但它不会查看嵌套元素。 (我正在
python - 无法导入名称 ‘etree’
尝试从 serpscrap 包运行示例 .py 时出现错误。我在 Pythonista 中使用 iPhoneX。如有任何帮助，我们将不胜感激。这是回溯 Traceback (most recen
python - etree xml解析和删除
如何删除或移除 server1 的所有条目，包括标签？我尝试使用 etree 删除功能，但它没有帮助
Python etree xml写入问题
我试图将多个文件写入一个目录，每个文件之间几乎没有变化(例如增量ID号)当我尝试运行我的程序时，它在写入大约5个文件后失败。但是当我再次尝试并重新选择源文件时，它就有效了。这是我的代码: if not
python - etree 克隆节点
如何在 Python xml.etree 中克隆 Element 对象？我正在尝试按程序移动和复制(然后修改它们的属性)节点。最佳答案您可以使用 copy.deepcopy()制作元素的副本。 (
Python lxml.etree 保留实体引用
我正在创建一个简单的脚本来使用特定模式解析、验证、修复和重新打印 XML 文件。整个过程运行良好，但问题是当我打印修改后的 ElementTree 时，它会删除我所有的实体引用。这是简化的 py
python - lxml etree 在之前找到最接近的元素
xml文件结构如下我的解析器首先获取所有元素 from lxml import etr
python - 使用 etree 删除元素
在Relationship下，我只想保留具有TO_FDN="FtpServer=，并删除所有其他内容。如何在 python 2.6 中使用 etree 来做到这一点？
Python:无法导入lxml.etree.xml文件
尝试使用 lxml 生成 xml 文件。在 API 文档中指出 xmlfile 类存在: http://lxml.de/api/lxml.etree.xmlfile-class.html 我使用导入
python etree 插入、追加和子元素
我想在 Python 中创建一个像这样的元素树: 我想将其用作一个空模板，以便稍后使用。但是，我无法插入或附加多个元素到元素，不过 etree.SubElement作品。更具体
Python xml.etree 格式化美化？
我有一个脚本，它使用 xml.etree.ElementTree 来解析 XML 文件，并且应该向元素添加一个子元素。我有两种方法，这两种方法在技术上都有效，但当我使用 ET.dump(root) 转
Python:xml.etree.ElementTree破坏xml格式
我有一个 XML 格式的 ISM 文件(InstallShield 项目)。我需要更改文件中的一些属性，因此我使用了 xml.etree.ElementTree(Python 库)。我可以找到这些
python - 从 etree 中删除一个节点但留下子节点
我正在遍历 XML 树，但从树中提取节点而留下其内部节点时遇到了一些麻烦。例如:
python - 为什么Python的lxml.etree.SubElement是类方法而不是实例方法？
为了向现有元素添加新的子元素，我必须调用类方法，并将父元素作为参数。我希望子元素的创建是即将成为父元素的实例方法，并将子元素(来自 Element 构造函数)作为唯一的形式参数。实际: #!/usr

首页

博学

6Ren·AI

商城

python - 解析 lxml.etree._Element 内容

结果

问题

解决方案