gpt4 book ai didi

python - 漂亮的汤无法解析这个 HTML

转载 作者:太空宇宙 更新时间:2023-11-04 10:48:17 25 4
gpt4 key购买 nike

我们正在使用 Beautiful Soup成功解析了许多网站,但有一些给我们带来了问题。这个页面就是一个例子:

http://www.designsponge.com/2013/04/biz-ladies-how-to-use-networking-to-improve-your-search-engine-rankings.html

我们将确切的源提供给 BeautifulSoup ,但它返回了一个发育不良的 HTML 字符串,尽管没有错误...

代码:

soup = BeautifulSoup(site_html)
print str(soup.html)

结果:

<html class="no-js" lang="en"> <!--&lt;![endif]--> </html>

我正在尝试确定是什么原因导致了它,但是在查看 html 源代码时我没有发现任何问题。有没有人有一些见解?

最佳答案

尝试不同的解析器,页面使用 html5lib 解析器解析得很好:

>>> soup = BeautifulSoup(r.content, 'html5')
>>> len(soup.find_all('li'))
97

并非所有的解析器都能以相同的方式处理损坏的 HTML。

关于python - 漂亮的汤无法解析这个 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15773977/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com