gpt4 book ai didi

python - 在 HTML 中提取 URL 哪个更快? [html.parser.HTMLParser] 或 [re.match] 或其他

转载 作者:行者123 更新时间:2023-11-28 19:58:36 25 4
gpt4 key购买 nike

有时,我想解析 HTML 以提取 URL。
我发现 [html.parser.HTMLParser][re.match] 都可以完成这项工作。
我想知道哪个更快。

是否有像 jquery 这样的 python 模块来解析 HTML?

如果您有更好的解决方案,请发表评论。

谢谢


lxml 非常好。它使工作变得非常简单。

>>>for url in parse(urlopen('http://www.stackoverflow.com')).getroot().find_class('question-hyperlink'): print(url.get('href'))

最佳答案

我强烈建议lxml .根据我的经验,这是最快的。 lxml实际上会在内存中生成一棵树。所以你可以解析/序列化/...
另一方面,如果您必须在上述两个选项中进行选择,我建议您使用 timeit模块并确定它。

关于python - 在 HTML 中提取 URL 哪个更快? [html.parser.HTMLParser] 或 [re.match] 或其他,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7782054/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com