gpt4 book ai didi

python - 防止 lxml 接触 <script> 标签中的数据

转载 作者:太空宇宙 更新时间:2023-11-03 15:26:17 27 4
gpt4 key购买 nike

我正在尝试编写一个 python 脚本来修改我正在解析的文件中 <script> 标记的内容。由于它的速度,我为此使用 lxml.html(而不是 BeautifulSoup 等)。 script 标签的内容包含在注释标签(<!-- 和 -->)中:

<script>
<!--
...
-->
</script>

问题是当我尝试类似 scriptNode.text = '<!-- ... 的时候当我将 html 写回文件时,lxml 将尖括号修改为它们的 html 表示形式(< 和 >)。我尝试在字符串 ('\< ...') 中转义它们,但这似乎没有帮助。

看看大多数现代网站,似乎不需要那些评论标签。我可以删除它们,但许多脚本也在其中使用了一些 html,如果这些脚本也被修改为它们的 HTML 表示,那就是个问题。

我很惊讶 lxml 会修改这些数据,最后我听说 HTML 解析器旨在避免修改/解释 <script> 标签内的数据。

我可以使用设置/命令来防止这种情况发生吗?

谢谢

最佳答案

将它们放在 CDATA section 中.

关于python - 防止 lxml 接触 &lt;script&gt; 标签中的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6375986/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com