gpt4 book ai didi

python - BeautifulSoup 3.1 解析器太容易崩溃了

转载 作者:搜寻专家 更新时间:2023-10-31 22:04:44 27 4
gpt4 key购买 nike

我在使用 BeautifulSoup 解析一些不可靠的 HTML 时遇到了问题。事实证明,较新版本中使用的 HTMLParser 的容错性低于以前使用的 SGMLParser。


BeautifulSoup 有某种 Debug模式吗?我试图弄清楚如何阻止它在我从一个令人讨厌的网站加载的一些讨厌的 HTML 上无聊:

<HTML>
<HEAD>
<TITLE>Title</TITLE>
<HTTP-EQUIV="PRAGMA" CONTENT="NO-CACHE">
</HEAD>
<BODY>
...
...
</BODY>
</HTML>

BeautifulSoup 在 <HTTP-EQUIV...> 之后放弃标签

In [1]: print BeautifulSoup(c).prettify()
<html>
<head>
<title>
Title
</title>
</head>
</html>

问题很明显是 HTTP-EQUIV 标签,它确实非常格式错误 <META HTTP-EQUIV="PRAGMA" CONTENT="NO-CACHE">标签。显然,我需要将其指定为自动关闭,但无论我指定什么都无法修复它:

In [2]: print BeautifulSoup(c,selfClosingTags=['http-equiv',
'http-equiv="pragma"']).prettify()
<html>
<head>
<title>
Title
</title>
</head>
</html>

是否有详细的 Debug模式,BeautifulSoup 会告诉我它在做什么,这样我就可以弄清楚它在这种情况下将什么视为标签名称?

最佳答案

Having problems with Beautiful Soup 3.1.0?建议使用 html5lib的解析器作为解决方法之一。

#!/usr/bin/env python
from html5lib import HTMLParser, treebuilders

parser = HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))

c = """<HTML>
<HEAD>
<TITLE>Title</TITLE>
<HTTP-EQUIV="PRAGMA" CONTENT="NO-CACHE">
</HEAD>
<BODY>
...
...
</BODY>
</HTML>"""

soup = parser.parse(c)
print soup.prettify()

输出:

<html>
<head>
<title>
Title
</title>
</head>
<body>
<http-equiv="pragma" content="NO-CACHE">
...
...
</http-equiv="pragma">
</body>
</html>

输出显示 html5lib 没有解决这种情况下的问题。

关于python - BeautifulSoup 3.1 解析器太容易崩溃了,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/459552/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com