gpt4 book ai didi

python - 使用 python 和 sqlite 进行网页抓取。如何有效存储爬取的数据?

转载 作者:太空狗 更新时间:2023-10-30 02:32:52 26 4
gpt4 key购买 nike

我想定期(例如每小时)抓取一些特定的网页。这是我想用 python 做的。抓取的结果应该被插入到 SQLite 表中。新信息将被抓取,但“旧”信息也将被再次抓取,因为 python 脚本将每小时运行一次。

更准确地说,我想抓取一个体育结果页面,随着比赛的进行,越来越多的比赛结果发布在同一页面上。因此,对于每次新的抓取,我只需要将新结果输入到 SQLite 表中,因为旧的结果已经在一小时前(或更早)被抓取(并插入到表中)。

我也不想两次插入相同的结果,因为它第二次被刮掉了。所以应该有一些机制来检查一个结果是否已经被抓取。这可以在 SQL 级别完成吗?因此,我抓取整个页面,为每个结果创建一个 INSERT 语句,但只有那些 INSERT 语句才能成功执行,而这些语句以前不存在于数据库中。我正在考虑诸如 UNIQUE 关键字之类的东西。

或者我是不是对性能想得太多了,应该通过每次在开始抓取之前执行 DROP TABLE 来解决这个问题,然后再从头开始抓取所有内容?我不会谈论太多数据。一场比赛只有大约 100 条记录(= 比赛),一年大约有 50 场比赛。

基本上,我只对某种最佳实践方法感兴趣。

最佳答案

你要做的是upsert(如果不存在则更新或插入)。在这里查看如何在 sqlite 中执行此操作:SQLite UPSERT - ON DUPLICATE KEY UPDATE

关于python - 使用 python 和 sqlite 进行网页抓取。如何有效存储爬取的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16063258/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com