gpt4 book ai didi

python - 如何检查 RSS 提要是否已在 Python 中更新?

转载 作者:太空狗 更新时间:2023-10-29 17:45:01 25 4
gpt4 key购买 nike

我正在使用 Python 中的 feedparser 库从 RSS 提要中获取各种详细信息。假设我从新闻 channel 的 RSS 提要中提取了 25 个标题。一个小时后,我再次运行 feedparser 命令以获取 25 个新标题的最新标题列表。第二次运行 feedparser 命令时,列表可能会更新,也可能不会更新。

有些标题可能相同,有些可能是新的。我需要能够检查任何新闻标题中是否有一个小时前被删除的标题的更新。只有新的标题必须被推送到数据库中。这是为了避免将重复项转储到数据库中。

代码如下所示:

import feedparser
d = feedparser.parse('www.news.example.xml')
for item in d.entries:
hndlr.write(item.title) #data being dumped into a database

我需要能够每小时运行一次上面的代码,并检查标题(标题)中是否有任何更新。如果一小时前提取的数据有任何变化,则只应将新数据转储到数据库中。

最佳答案

每个 Feed 项在 item.id 中都有一个标识符。跟踪它们及其 .updated(或 .updated_pa​​rsed)条目,以检查新项目。

因此,看看您是否已经看过该项目(通过 item.id),或者自上次检查以来它是否已更新(通过 item.updated)或 item.updated_pa​​rsed)。

请务必利用 feedparser E-Tag support但是要检查更改的提要内容。这只会使您免于下载没有新项目的提要;当您获得 Feed 的新副本时,您仍然需要检测已添加或更新的项目。

关于python - 如何检查 RSS 提要是否已在 Python 中更新?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14256745/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com