gpt4 book ai didi

python - 使用python下载RSS

转载 作者:太空宇宙 更新时间:2023-11-04 08:22:37 25 4
gpt4 key购买 nike

我有 200 个 rss 提要的列表,我必须下载它们。这是一个连续的过程——我必须下载每一篇文章,不能遗漏任何东西,但也不能重复。所以最佳实践应该记住提要的最后更新并控制它在 x 小时间隔内的变化?如果下载器会重启怎么处理?所以下载者应该记住,下载了什么并且不要再次下载......

它已经在某处实现了吗?或任何文章提示?谢谢

最佳答案

通常这是你想要做的:

  • 定期获取提要并使用 universal feedparser 解析它们并将条目存储在某处。
  • 在获取 Feed 时使用 ETag 和 IfModified header ,以避免解析自上次获取后未更改的 Feed。您必须维护在上次获取提要期间收到的 Etag 和 Ifmodified 值。
  • 为避免重复,每个条目应与其唯一的 guid 一起存储,然后检查是否已存储具有相同 guid 的条目。 (通过 entry_link、标题哈希 + 提要 url 回退以唯一标识条目,以防提要条目没有 guid)

关于python - 使用python下载RSS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2517648/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com