gpt4 book ai didi

python - Python 中的 HTML 解析器,无需修复 HTML

转载 作者:太空宇宙 更新时间:2023-11-04 10:58:16 29 4
gpt4 key购买 nike

我需要通过 html 进行解析,但我不需要 python 解析库来尝试“修复”html。关于使用工具或方法的任何建议(在 python 中)?在我的情况下,如果 html 格式不正确,那么我的脚本需要结束处理。我尝试了 BeautifulSoup,但它修复了我不想修复的问题。我正在创建一个工具来解析模板文件并输出另一个转换后的模板样式。

最佳答案

本书Foundations of Python Network Programming详细比较了使用 Beautiful Soup 和 lxml 库抓取同一网页的效果;但是,一般来说,您会发现 lxml 更快、更有效,并且有一个严格遵守 Python 标准的 API(Python 标准库附带的 ElementTree API)。请参阅无与伦比的 Ian Bicking 的这篇博客文章,了解为什么您应该查看 lxml 而不是用于解析 HTML 的老式 Beautiful Soup 库:

http://blog.ianbicking.org/2008/12/10/lxml-an-underappreciated-web-scraping-library/

关于python - Python 中的 HTML 解析器,无需修复 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7949540/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com