gpt4 book ai didi

python - 使用 Python 2.7 解析 HTML - HTMLParser、SGMLParser 或 Beautiful Soup?

转载 作者:技术小花猫 更新时间:2023-10-29 12:14:59 26 4
gpt4 key购买 nike

我想用 Python 2.7 进行一些屏幕抓取,但我不知道 HTMLParserSGMLParser 或 Beautiful Soup 之间的区别。

这些都是为了解决同一个问题,还是出于不同的原因而存在?哪个最简单,哪个最健壮,哪个(如果有的话)是默认选择?

另外,如果我忽略了一个重要的选项,请告诉我。

编辑: 我应该提一下,我在 HTML 解析方面并不是特别有经验,而且我特别感兴趣的是哪一个能让我最快地移动,目标是在一个特定的平台上解析 HTML网站。

最佳答案

我正在使用并推荐使用 lxmlpyquery 来解析 HTML。几个月前我不得不编写一个网络抓取机器人,在我尝试过的所有流行替代方案中,包括 HTMLParserBeautifulSoup,我选择了 lxmlpyquery 的语法糖。不过,我还没有尝试过 SGMLParser

就我所见,lxml 或多或少是功能最丰富的库,与其替代品相比,其底层 C 核心的性能相当出色。至于 pyquery,我真的很喜欢它受 jQuery 启发的语法,这使得在 DOM 中导航更加愉快。

如果您决定尝试一下,这里有一些您可能会发现有用的资源:

好吧,这就是我的 2c :) 我希望这对您有所帮助。

关于python - 使用 Python 2.7 解析 HTML - HTMLParser、SGMLParser 或 Beautiful Soup?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6494199/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com