gpt4 book ai didi

python - 解析网页以建立索引

转载 作者:太空宇宙 更新时间:2023-11-03 19:03:03 25 4
gpt4 key购买 nike

我正在尝试理解/优化为网站建立索引的逻辑。我对 HTML/JS 方面很陌生,所以我正在不断学习。在为网站建立索引时,我根据每个页面上的链接递归地深入该网站。问题之一是页面具有重复的 URL 和文本(例如页眉和页脚)。对于 URL,我有一个已经处理过的 URL 列表。我可以做些什么来识别每页上重复的文本吗?我希望我的解释足够清楚。我目前有代码(Python)来获取该网站的有用 URL 列表。现在我正在尝试对这些页面的内容建立索引。是否有首选逻辑来识别或跳过这些页面上的重复文本(例如页眉、页脚、其他简介)。我正在使用 BeautifulSoup + requests 模块。

最佳答案

我不太确定这是否是您所希望的,但可读性是一项流行的服务,它只是解析页面中的“有用”内容。这是集成到 ios 版 safari 中的服务。

它智能地获取页面有值(value)的内容,同时忽略页脚/页眉/广告等内容

有针对 python/ruby/php 以及可能其他语言的开源端口。

https://github.com/buriy/python-readability

关于python - 解析网页以建立索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15552680/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com