gpt4 book ai didi

python - 在python中仅检索网页的标题

转载 作者:可可西里 更新时间:2023-11-01 12:53:16 24 4
gpt4 key购买 nike

我有 5000 多个网页,我想要所有网页的标题。在我的项目中,我正在使用这样的 BeautifulSoup html 解析器。

soup = BeautifulSoup(open(url).read())
soup('title')[0].string

但这需要很多时间。只是为了网页的标题,我正在读取整个文件并构建解析树(我认为这是延迟的原因,如果我错了请纠正我)。

有没有其他简单的方法可以在 python 中执行此操作。

最佳答案

如果你只使用一个简单的正则表达式肯定会更快,BeautifulSoup 非常慢。你可以这样做:

import re
regex = re.compile('<title>(.*?)</title>', re.IGNORECASE|re.DOTALL)
regex.search(string_to_search).group(1)

关于python - 在python中仅检索网页的标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5960087/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com