gpt4 book ai didi

python - BeautifulSoup: 'lxml' 和 'html.parser' 以及 'html5lib' 解析器有什么区别?

转载 作者:太空狗 更新时间:2023-10-29 19:34:33 27 4
gpt4 key购买 nike

使用 Beautiful Soup 时,“lxml”与“html.parser”和“html5lib”之间有什么区别?

您什么时候会使用一个而不是另一个以及每个的好处?当我使用它们时,它们似乎可以互换,但这里的人纠正我说我应该使用不同的。我想加强我的理解;我在这里阅读了几篇关于此的帖子,但它们根本没有详细介绍用途。

例子:

soup = BeautifulSoup(response.text, 'lxml')

最佳答案

来自docs优缺点汇总表:

  1. html.parser - BeautifulSoup(markup, "html.parser")

    • 优点:包含电池、速度不错、宽松(从 Python 2.7.3 和 3.2 开始。)

    • 缺点:不太宽松(Python 2.7.3 或 3.2.2 之前)

  2. lxml - BeautifulSoup(markup, "lxml")

    • 优点:非常快,宽容

    • 缺点:依赖外部C

  3. html5lib - BeautifulSoup(markup, "html5lib")

    • 优点:极其宽松,以与网络浏览器相同的方式解析页面,创建有效的 HTML5

    • 缺点:非常慢,依赖外部Python

关于python - BeautifulSoup: 'lxml' 和 'html.parser' 以及 'html5lib' 解析器有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45494505/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com