gpt4 book ai didi

python - 如何判断网页是否被修改

转载 作者:太空狗 更新时间:2023-10-29 14:52:30 38 4
gpt4 key购买 nike

我有 2 次拍摄的多个网页的快照。确定哪些网页已被修改的可靠方法是什么?

我不能依赖 RSS 提要之类的东西,我需要忽略日期文本之类的小噪音。

理想情况下,我正在寻找 Python 解决方案,但直观的算法也很棒。

谢谢!

最佳答案

首先,您需要确定什么是噪音,什么不是。您可以使用像 BeautifulSoup 这样的 HTML 解析器去除噪音,漂亮地打印结果,并将其作为字符串进行比较。

如果您正在寻找自动解决方案,可以使用 difflib.SequenceMatcher要计算页面之间的差异,请计算 similarity并将其与阈值进行比较。

关于python - 如何判断网页是否被修改,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1587902/

38 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com