gpt4 book ai didi

python - 在 python 中解析损坏的 html 页面

转载 作者:行者123 更新时间:2023-11-28 22:00:55 25 4
gpt4 key购买 nike

我正在尝试解析一个损坏的 html 页面,该页面在另一个评论中有一个评论,所有著名的 html 解析器,如 beautifulsoup、lxml 和 HTMLParser 都给出了语法错误。以下是代码。如何忽略损坏的代码部分并解析页面的其余部分?

<html xmlns="http://www.w3.org/1999/xhtml"><head>

<script language="JavaScript">
<!--
function setTimeOffsetVars (Link) {
// code removed
}

<!-- Image Preloader - takes an array of images to preload -->
function warningCheck(e, warnMsg) {
// code removed
}
-->
</script>

</head>

<body topmargin="0" leftmargin="0" rightmargin="0" bottommargin="0" marginwidth="0" marginheight="0">
<!-- lot of useful code -->
</body></html>

最佳答案

如果您知道问题出在哪里,您可以进行预处理:首先使用原始方法(如正则表达式)去除有问题的内部注释,然后使用真正的解析器对其进行处理。

关于python - 在 python 中解析损坏的 html 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14037866/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com