Python lxml - 规范化字典中的所有子元素-6ren

Python lxml - 规范化字典中的所有子元素

转载作者：行者123 更新时间：2023-12-01 09:16:21

25

4

我正在尝试解析安全 OVAL XML 定义文件以便自动执行测试。

我想要实现的是对于每个定义，转换测试标准和字典中的标准。

标准 XML 结构如下所示:

 <criteria operator="AND">
        <criteria comment="Affected IOSXE configuration" operator="AND">
          <criterion comment="ASR 1000 series router" test_ref="oval:org.cisecurity:tst:5943" />
          <criteria comment="Affected IOSXE configuration" operator="OR">
            <criteria comment="Zone-based firewall configured" operator="AND">
              <criterion comment="Match TCP or UDP" test_ref="oval:org.cisecurity:tst:6071" />
              <criterion comment="ZBFW inspection enabled" test_ref="oval:org.cisecurity:tst:5850" />
            </criteria>
            <criteria comment="NAT and PPTP ALG are enabled" operator="AND">
              <criterion comment="NAT configured" test_ref="oval:org.cisecurity:tst:6020" />
              <criterion comment="NAT enabled" test_ref="oval:org.cisecurity:tst:6146" />
              <criterion comment="PPTP ALG disabled" negate="true" test_ref="oval:org.cisecurity:tst:5668" />
            </criteria>
            <criteria comment="NAT and TCP reassembly are enabled" operator="AND">
              <criterion comment="NAT configured" test_ref="oval:org.cisecurity:tst:6020" />
              <criterion comment="NAT enabled" test_ref="oval:org.cisecurity:tst:6146" />
              <criterion comment="Affected processor" test_ref="oval:org.cisecurity:tst:5622" />
            </criteria>
            <criterion comment="EoGRE is enabled" test_ref="oval:org.cisecurity:tst:6003" />
          </criteria>
        </criteria>
        <criterion comment="IOSXE version is affected" test_ref="oval:org.cisecurity:tst:6178" />
      </criteria>

我可以使用下面的代码检索和映射第一级条件:

# Add OVAL ID attrib in normalized Vulnerability dictionary
for idx, vuln in enumerate(vuln_list):
    vuln['oval_id'] = root.xpath("//ns:definition", namespaces=ns)[idx].attrib['id']

    criteria = root.xpath("//ns:definition[@id='" + vuln_list[idx]['oval_id'] + "']/ns:criteria/*", namespaces=ns)

    vuln['criteria'] = [crit.items() for crit in criteria]

这会用下面的结果填充我的字典，显然缺少嵌套的子元素:

{'cisco_adv_id': 'cisco-sa-20131030-asr1000',
  'cisco_adv_url': 'http://tools.cisco.com/security/center/content/CiscoSecurityAdvisory/cisco-sa-20131030-asr1000',
  'criteria': [[('comment', 'Affected IOSXE configuration'),
                ('operator', 'AND')],
               [('comment', 'IOSXE version is affected'),
                ('test_ref', 'oval:org.cisecurity:tst:6178')]],
  'cve_id': 'CVE-2013-5547',
  'oval_id': 'oval:org.cisecurity:def:4321',
  'title': 'Cisco IOS XE Software Malformed EoGRE Packet Denial of Service '
           'Vulnerability'},

我可以检查嵌套的 for 循环并使用 getchildren() 检查该元素是否有子元素，但这听起来不像是最佳解决方案，因为每个定义都有一个或多个条件/条件元素。

关于如何更有效地解析它有什么想法吗？

提前致谢。

最佳答案

如果使用递归，那就相对容易了。

对于第一个示例，我尝试保持与您相同的组织:每个条件都是一个包含属性和子项的列表，但两者都存储为字典而不是元组

def get_data(el):
    if el.tag =='criteria':
        data = {'criteria': [el.attrib]}
        for desc in el.iterchildren():
            data['criteria'].append(get_data(desc))
        return data
    else:
        return {'criterion': el.attrib}

问题是返回的数据不容易使用:每个条件最多可以包含三个字典(属性、条件或条件)，并且您必须进行一些测试才能知道哪个是哪个。在第二个示例中，您提前知道列表包含什么:如果键是标准，您知道您将拥有一个标准字典列表。

def get_data(el):
    if el.tag =='criteria':
        data = {}
        data.update(el.attrib)
        for desc in el.iterchildren():
            key = desc.tag
            if not key in data:
                data[key] = []
            data[key].append(get_data(desc))
        return data
    else:
        return el.attrib

关于Python lxml - 规范化字典中的所有子元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51221489/

25

4

0

文章推荐： java - Blue J 显示正在运行，但不会打开结果窗口

文章推荐： svn - 重构 Subversion 存储库

文章推荐： haskell - 具有更高种类类型的类型类约束

文章推荐： electron - 托管 Breakpad 服务器(Electron Crash Reporter)

url - 规范化/规范化 URL？
我正在寻找一个库函数来规范化 Python 中的 URL，即删除路径中的“./”或“../”部分，或添加默认端口或转义特殊字符等。结果应该是指向同一网页的两个 URL 唯一的字符串。例如 http:/
xml - 规范化/规范化 XSD 模式模式以进行文本比较
我有 2 个版本的 XSD 文件，我想看看它们之间做了哪些更改。不幸的是，发布者选择完全重写 XSD，更改元素、属性、命名空间前缀等的顺序。是否有工具(命令行或 GUI)可以将它们转换为我可以使用的规
CSS重置+规范化？
我一直在想，同时使用 normalize.css 和某种 CSS 重置会不会有什么大问题？我一直在四处挖掘，我遇到的所有文章都只是以非此即彼的方式谈论它们，而没有谈及将两者结合起来。诚然，我在规范化
数据库设计 - 规范化
这对我来说是一个新话题，我已经阅读了几篇文章，但我仍然不清楚，甚至不确定以下问题是否与这篇文章的标题有关。我的系统向用户发送数据。用户可以选择通过以下方式发送数据: XML 电子邮件发布根据用户
SQL:将一行分成多行(规范化)
我正在从设计不佳的旧数据库升级到新数据库。在旧数据库中有带有字段 Id 和 Commodities 的 tableA。 Id 是主键，包含一个 int，Commodities 包含一个逗号分隔的列表。
unicode - 规范化 unicode
假设我有包含此字符串的 Apache Solr 索引文档: Klüft skräms inför 我希望能够使用此关键字通过搜索找到它(注意“u”-“ü”): kluft 有没有办法做到这一点？最
validation - 规范化/验证数据库中的国际数据集？
假设您正在处理常规的联系人数据库（您知道...姓名，电话号码，地址，电子邮件等...）。如果您在本地对此感到疑惑，那么一般来说这不是什么大问题，但是当我们查看国际场景时，它就是。查看电话号码系统，您
没有任何包的 Python 规范化
尝试在不使用 python 中的任何包的情况下计算 L1 范数假设我有向量:l = [2.34, 3.32, 6.32, 2.5, 3,3, 5.32] 我想找到这个向量的L1，没有任何包: 我已经
MySQL:规范化，这是一个有效的异常吗？
我们拥有 10 年的存档体育数据，分布在不同的数据库中。尝试将所有数据合并到一个数据库中。由于我们将处理 10 倍的记录数量，因此我现在正在尝试重新设计架构以避免潜在的性能影响。一项更改是将团队名
MySQL 模式设计问题 - 规范化
我正在使用以下设计为我的网站创建表格设计1 设计2 由于并非所有注册用户都会尝试挑战，因此设计 1 适合。插入第三个表时，表 2 分数会相应更新。但是 user_id 字段变得多余。设计 2 中为
mysql - 规范化 - 将数据迁移到另一个表
我有一个带有字段 json 的表模板。由于 json 对于许多 template 来说可能是相同的 (1:n)，我创建了另一个表 template_json 并添加了字段 template_json_
c++ - 规范化 "Point"
我有一个具有正交投影的 C++/OpenGl/Glut 应用程序。窗口的宽度为 500 x 500 像素。目前，当鼠标点击发生时，该点将在 (0,0) 和 (500, 500) 之间。我想获取该点
java - 构建单独的类(规范化？)
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
JavaScript Unicode 规范化
我的印象是 JavaScript 解释器假设它正在解释的源代码已经被规范化。什么，规范化到底是做什么的？它不能是文本编辑器，否则源的明文表示会改变。是否有一些执行规范化的“预处理器”？最佳答案 EC
mysql - 良好的数据库设计/规范化
我被分配了一项任务，但我不确定如何完成它: 我必须构建一个支持多种设备的消息系统，并且它应该尽可能高效。用户最多可以有 10 台设备，当用户收到消息时，所有设备都需要接收消息。我有两个想法: Tab
mysql - 规范化，困惑
我正在尝试将规范化合并到我的数据库设计中，互联网上提供的一些解释让我有点困惑 - 我不确定我是否在朝着正确的方向前进？到目前为止我有: 用户: id username password 用户配置文件
database - 规范化 - 重复外键
规范化数据时，是否可以接受在同一张表中重复使用外键？例如一家 express 公司有一个订单表和一个客户表，订单表会记录从哪个客户那里取件(Customer_ID)，并且还会有一列用于说明要交付给哪
Java:XML 规范化
用 Java 制作规范形式的 XML 文件的最简单方法是什么？你有一些完成的代码吗？我在网上找到了几个链接，比如 this , this , 和 this ，但我无法让它工作:/ 谢谢，伊凡编辑:
python - 规范化 Unicode
在 Python 中是否有标准方法来规范化 unicode 字符串，以便它只理解可用于表示它的最简单的 unicode 实体？我的意思是，可以将 ['LATIN SMALL LETTER A', '
excel - 规范化 VBA 中关于时间的日期
我知道这个问题已经讨论了很多——但实际上我还没有找到这个问题的最终答案。我想从我的 VBA(Excel)脚本中的日期“删除”(或更确切地说是标准化)时间。例如。: 20.12.2017 15:16

首页

博学

6Ren·AI

商城

Python lxml - 规范化字典中的所有子元素