我有大量的 RSS 提要,我需要每秒或更短时间更新一次。是否有任何解决方案可以解决所有陷入困境的问题,例如部分检查或更改或检查文件大小或修改 RSS 提要以仅显示最后一篇新闻文章以减少带宽?这个问题对于它的解决方案来说确实是通用的,但特定于 RSS 提要,所以请随时添加我可能遗漏的另一个标签。
不是真正的答案,而是渴望发表评论。
带宽
让我们做一些计算:一个典型的 RSS 提要大约为 200kB(不包括图像)。每秒轮询 1000 将需要 200MB/s 的带宽。这可以通过专业的互联网连接来实现。但是,您一次需要多个连接,因此您需要多线程设置。如果处理时间占用大量 CPU 资源,这种设置最终将使它更容易在多台服务器上扩展。
注意,这里没有图片。
查看这些规范并注意诸如 skiphours
和 ttl
之类的内容。提供有关轮询服务的提示。
https://cyber.harvard.edu/rss/rss.html
处理中
Rss 项目通常有一个 pubDate
,您可以使用它来排除处理流程中的项目。这不应该是一个瓶颈。如果将数据保存到数据库中,您可能需要深入研究以优化它。
潜在问题
- 由于调用过多而阻塞
- 提要中的广告(特别是如果它们在
pubDate
中使用请求日期/时间(我知道 cnn 倾向于这样做)。
我是一名优秀的程序员,十分优秀!