Python ElementTree 转义 HTML 实体-6ren

Python ElementTree 转义 HTML 实体

转载作者：太空宇宙更新时间：2023-11-04 03:42:32

25

4

我编写了一个将 XML 解析为逗号分隔格式的简单脚本。一个 sample XML 源代码如下所示:

<?xml version="1.0" encoding="utf-8"?>
<users>
<row Id="-1" Reputation="1" CreationDate="2010-08-10T15:50:26.953" DisplayName="Community" LastAccessDate="2010-08-10T15:50:26.953" Location="on the server farm" AboutMe="&lt;p&gt;Hi, I'm not really a person.&lt;/p&gt;&#xA;&#xA;&lt;p&gt;I'm a background process that helps keep this site clean!&lt;/p&gt;&#xA;&#xA;&lt;p&gt;I do things like&lt;/p&gt;&#xA;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;Randomly poke old unanswered questions every hour so they get some attention&lt;/li&gt;&#xA;&lt;li&gt;Own community questions and answers so nobody gets unnecessary reputation from them&lt;/li&gt;&#xA;&lt;li&gt;Own downvotes on spam/evil posts that get permanently deleted&lt;/li&gt;&#xA;&lt;li&gt;Own suggested edits from anonymous users&lt;/li&gt;&#xA;&lt;li&gt;&lt;a href=&quot;http://meta.stackexchange.com/a/92006&quot;&gt;Remove abandoned questions&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;" Views="0" UpVotes="3732" DownVotes="2275" AccountId="-1" />
</users>

gist

解析器的相关代码是这样的:

import xml.etree.cElementTree as cetree

def get_data_c(fn, columns):
    res = ''
    cols = columns.split(',')

    for c in cols:
        res = res + c + ','

    res = res[:-1] + '\n'
    yield res

    for event, elem in cetree.iterparse(fn):
        res = ''
        if elem.tag == "row":
            for c in cols:
                if c in elem.attrib:
                    res = res + elem.attrib[c] + ','
                else:
                    res = res + ','
            res = res[:-1] + '\n'
            yield res
            elem.clear()

gist完整的脚本。

我的问题是，当我获得 AboutMe 属性的值时，cElementTree正在对该属性中包含的 HTML 进行转义。理想情况下，我想保持格式为转义 HTML，并简单地将其用引号括起来以供输出文件。但是我得到的是未转义的字符串，如此处所示 gist .我怎么说cElementTree 保持属性的原始值不进行变换它到 HTML？

EDIT 2014-09-01 12:49 PST:根据下面 Tomalak 的回答，这就是我用来获得我正在寻找的行为的方法:

def escape_str(html_str):
    s = html.escape(html_str)
    return s.replace('\n', '&#xA;')

我基本上包装了调用以获取转义周围的属性值上面的功能。像这样:

res = res + '"' + escape_str(elem.attrib[c]) + '",'

最佳答案

属性中没有转义的 HTML。

属性中有 HTML，这正是您检索其值时得到的内容。

比较:

<row AboutMe="&lt;b&gt; This is HTML &lt;/b&gt;" />

Attribute value: "<b> This is HTML </b>"

和:

<row AboutMe="&amp;lt;b&amp;gt; This is escaped HTML &amp;lt;/b&amp;gt;" />

Attribute value: "&lt;b&gt; This is escaped HTML &lt;/b&gt;"

你的错误在于你期待错误的事情，而正确的事情却发生了。 cElementTree 绝对不不转义任何东西。它逐字为您提供属性。

关于Python ElementTree 转义 HTML 实体，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25605026/

25

4

0

文章推荐： python - Formset 对象 - 对象没有属性 'fields'

文章推荐： jquery - 希腊字母符号

文章推荐： python - Python 中的 fillplots 模块

文章推荐： python - 部分继承——继承一些功能，减去一个有问题的方法

python - ElementTree 返回元素而不是 ElementTree
我正在尝试从字符串构建ElementTree。当我执行以下操作时(如 Python ElementTree: Parsing a string and getting ElementTree inst
python - 为什么 elementtree.ElementTree.iterparse 使用这么多内存？
我正在使用 elementtree.ElementTree.iterparse 来解析大型 (371 MB) xml 文件。我的代码基本上是这样的: outf = open('out.txt', '
Python:忽略 elementtree.ElementTree 中的 xmlns
有没有办法在 elementtree.ElementTree 中忽略标记名称中的 XML 命名空间？我尝试打印所有 technicalContact 标签: for item in root.get
python: xml.etree.elementtree.ElemenTtree.write() 声明标签
我使用 xml.etree.elementtree.Element 创建了一个 XML 文档，并想使用 ElementTree.write() 函数打印它但是出来的声明标签是虽然我需要用双引号引起
python - 将重音字符转换为拉丁字符而不影响 ElementTree
这个问题已经有答案了: What is the best way to remove accents (normalize) in a Python unicode string? (14 个回答)
python - ElementTree - 将子元素附加到元素时出现问题
我想为此处元素国家/地区新加坡旁边的元素创建子元素。假设我的 test.xml 文件如下所示 2008 141100
Python开发-elementtree XML和字符串操作
我正在使用ElementTree加载一系列 XML 文件并解析它们。解析文件时，我将从其中获取一些数据(标题和文本段落)。然后我需要获取一些存储在 XML 中的文件名。它们包含在名为 ContentI
Python ElementTree 复制带有子节点的节点
我必须将多个 XML 文件合并为一个。此外，新文件的结构也不同。这是我的“旧”结构: 1
python - Elementtree，检查元素是否有特定的父元素？
我正在解析一个 xml 文件:http://pastebin.com/fw151jQN我希望在副本中读取它的大部分内容并将其写入一个新文件，其中一些已修改，很多未修改，还有很多被忽略。作为初始阶段，我
Python elementtree 很难提取数据
这是 XML: TARGET_NAME_1 5 a string goes here TARGET_NA
python - Elementtree 转储给出错误答案
from lxml import etree from xml.etree.ElementTree import Element, SubElement, dump listing = Element
python导入xml不包含xml.etree.ElementTree
当涉及到模块/库时，为了可读性，我喜欢在 python 中使用完整的命名空间。我想知道为什么这对 xml 库不起作用。我认为 import xml 还将导入 etree 和命名空间中的所有其他内容。至
python - ElementTree 删除元素
这里是 Python 菜鸟。想知道删除所有 updated 属性值为 true 的“profile”标签的最干净、最好的方法是什么。我已经尝试了下面的代码，但它抛出了:SyntaxError("ca
Python ElementTree 从根目录中删除元素时出错
尝试从 xml 文档中删除元素时出现以下错误。“ValueError: list.remove(x): x 不在列表中”这是代码，错误发生在删除的行上。 import xml.etree.Elemen
Python ElementTree 重复检查器
所以我必须编写一个“重复检查器”来比较两个 XML，看看它们是否相同(包含相同的数据)。现在因为它们来自同一个类并且是从 XSD 结构中生成的，所以内部元素的顺序很可能是相同的。我能想到的进行重复检
Python ElementTree 编写多个命名空间
我有一个 XML 文档，我正在使用 ElementTree 阅读和附加该文档。这有多个命名空间声明。据我所知，ElementTree 只允许声明一个全局命名空间: ET.register_namesp
python/elementtree xml解析成数组
从这里开始: stuff
Python ElementTree 发现不工作
我是 ElementTree 的新手。我正在尝试获取来自 XML 响应的值。以下代码对我不起作用。如何提取中的值？我不确定号码在哪里 53是从这里来的。 ... r = req
Python ElementTree 不喜欢处理指令名称中的冒号
以下代码: import xml.etree.ElementTree as ET xml = '''\ ''' root = ET.fromstring(xml)
python - ElementTree 命名空间不方便
我无法控制我获得的 XML 的质量。在某些情况下是: ... 在其他方面我得到: ... 我想我也应该处理 ... 整个架构都是相同的，我只需要一个解析器来处理它。我该如何处理所有这些

首页

博学

6Ren·AI

商城

Python ElementTree 转义 HTML 实体