gpt4 book ai didi

python - 使用 ElementTree 的 HTML 内部节点

转载 作者:数据小太阳 更新时间:2023-10-29 02:02:42 25 4
gpt4 key购买 nike

我正在使用 ElementTree 来解析 XML 文件。在某些字段中,会有 HTML 数据。例如,考虑如下声明:

<Course>
<Description>Line 1<br />Line 2</Description>
</Course>

现在,假设 _course 是一个 Element 变量,它保存了这个 Couse 元素。我想访问此类(class)的说明,所以我这样做:

desc = _course.find("Description").text;

但是 desc 只包含“第 1 行”。我阅读了一些关于 .tail 属性的内容,所以我也尝试了:

desc = _course.find("Description").tail;

我得到了相同的输出。我应该怎么做才能使 desc 成为“第 1 行
第 2 行”(或字面意义上的 和 之间的任何内容)?换句话说,我正在寻找类似于 C#(以及我猜的许多其他语言)中的 .innerText 属性的内容。

最佳答案

您是否可以控制 xml 文件的创建?包含 xml 标签(或类似标签)或标记字符(' < ' 等)的 xml 标签的内容应该被编码以避免这个问题。您可以使用以下任一方式执行此操作:

  • 一个CDATA
  • Base64 或其他一些编码(不包括 xml 保留字符)
  • 实体编码('<'=='&lt;')

如果您无法进行这些更改,并且 ElementTree 无法忽略未包含在 xml 架构中的标记,那么您将不得不预处理该文件。当然,如果架构与 html 重叠,那你就不走运了。

关于python - 使用 ElementTree 的 HTML 内部节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1088476/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com