gpt4 book ai didi

python - 解析 HTML 内容时防止 etree 解析 HTML 实体

转载 作者:行者123 更新时间:2023-12-05 06:45:42 35 4
gpt4 key购买 nike

有什么办法可以防止etree在解析HTML内容时解析HTML实体吗?

html = etree.HTML('<html><body>&amp;</body></html>')
html.find('.//body').text

这给了我 '&' 但我想得到 '&'本身。

最佳答案

您始终可以对数据进行前/后处理。在提供给 HTML 解析器之前将 '&' 替换为 u'\xfe',并在输出时将 u'\xfe' 替换为 '&'。

from lxml import etree
html = etree.HTML('<html><body>&amp;</body></html>'.replace('&',u'\xfe'))
html.find('.//body').text.replace(u'\xfe','&')
u'&amp;'

关于python - 解析 HTML 内容时防止 etree 解析 HTML 实体,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22263599/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com