gpt4 book ai didi

python - 如何以编程方式识别网站结构的变化

转载 作者:行者123 更新时间:2023-12-01 01:21:15 25 4
gpt4 key购买 nike

在 Python Scrapy 爬虫的实现中,我想添加一个强大的机制来监视/检测网站内潜在的布局变化。

这些更改不一定会影响现有的蜘蛛选择器 - 例如,网站添加一个新的 HTML 元素来表示某个项目已收到的访问者数量 - 我现在可能有兴趣解析该元素。话虽如此,检测选择器问题(Xpath/CSS)在它们被删除/重新定位的情况下也将是有益的。

请注意,这不是关于选择器内容更改或网站刷新(if-modified-sincelast-modified),而是对结构的修改/站点的节点/布局。

因此,如何实现逻辑来监控这种情况?

最佳答案

这实际上是一个研究主题,您可以在 this paper 上看到当然,您可以查看一些已实现的工具:

基本上(在之前的方法上)比较的基础是使用 Tree Edit Distance html 布局。

关于python - 如何以编程方式识别网站结构的变化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53811691/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com