- objective-c - iOS 5 : Can you override UIAppearance customisations in specific classes?
- iphone - 如何将 CGFontRef 转换为 UIFont?
- ios - 以编程方式关闭标记的信息窗口 google maps iOS
- ios - Xcode 5 - 尝试验证存档时出现 "No application records were found"
我想用 Python 2.7 进行一些屏幕抓取,但我不知道 HTMLParser
、SGMLParser
或 Beautiful Soup 之间的区别。
这些都是为了解决同一个问题,还是出于不同的原因而存在?哪个最简单,哪个最健壮,哪个(如果有的话)是默认选择?
另外,如果我忽略了一个重要的选项,请告诉我。
编辑: 我应该提一下,我在 HTML 解析方面并不是特别有经验,而且我特别感兴趣的是哪一个能让我最快地移动,目标是在一个特定的平台上解析 HTML网站。
最佳答案
我正在使用并推荐使用 lxml 和 pyquery 来解析 HTML。几个月前我不得不编写一个网络抓取机器人,在我尝试过的所有流行替代方案中,包括 HTMLParser 和 BeautifulSoup,我选择了 lxml 和 pyquery 的语法糖。不过,我还没有尝试过 SGMLParser。
就我所见,lxml 或多或少是功能最丰富的库,与其替代品相比,其底层 C 核心的性能相当出色。至于 pyquery,我真的很喜欢它受 jQuery 启发的语法,这使得在 DOM 中导航更加愉快。
如果您决定尝试一下,这里有一些您可能会发现有用的资源:
好吧,这就是我的 2c :) 我希望这对您有所帮助。
关于python - 使用 Python 2.7 解析 HTML - HTMLParser、SGMLParser 或 Beautiful Soup?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6494199/
我编写了继承 SGMLParser 的简单类。这个类背后的主要思想是从 html 页面收集所有链接并打印可以找到该链接的行号。 这个类看起来像这样: class HtmlParser(SGMLPars
我看到的每个 sgmlparser 示例都涉及查找标签,然后查找标签的属性/值。因此,这将是提取“google.com”的能力。但我想要标签之间的数据。所以如果我使用 sgmlparser,我会查找并
我想用 Python 2.7 进行一些屏幕抓取,但我不知道 HTMLParser、SGMLParser 或 Beautiful Soup 之间的区别。 这些都是为了解决同一个问题,还是出于不同的原因而
我是一名优秀的程序员,十分优秀!