gpt4 book ai didi

python - BeautifulSoup 找不到正确解析的元素

转载 作者:太空宇宙 更新时间:2023-11-04 14:15:50 25 4
gpt4 key购买 nike

我正在使用 BeautifulSoup解析一堆可能非常脏的 HTML文件。我偶然发现了一件非常奇怪的事情。

HTML 来自此页面:http://www.wvdnr.gov/

它包含多个错误,如多个 <html></html> , <title>外面<head>等等……

但是,即使在这些情况下,html5lib 通常也能正常工作。事实上,当我这样做时:

soup = BeautifulSoup(document, "html5lib")

然后我美化了 soup ,我看到以下输出:http://pastebin.com/8BKapx88

其中包含大量<a>标签。

但是,当我做 soup.find_all("a")我得到一个空列表。与 lxml我也一样。

所以:以前有人偶然发现过这个问题吗?到底是怎么回事?我如何获得 html5lib 的链接找到但没有返回 find_all

最佳答案

即使正确答案是“使用另一个解析器”(感谢@alecxe),我也有另一个解决方法。出于某种原因,这也适用:

soup = BeautifulSoup(document, "html5lib")
soup = BeautifulSoup(soup.prettify(), "html5lib")
print soup.find_all('a')

返回相同的链接列表:

soup = BeautifulSoup(document, "html.parser")

关于python - BeautifulSoup 找不到正确解析的元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26896558/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com