gpt4 book ai didi

python - 使用 python 在没有唯一标识符的情况下抓取 html

转载 作者:行者123 更新时间:2023-11-29 00:24:38 26 4
gpt4 key购买 nike

<分区>

我想使用 python 设计一个算法来抓取数千个页面,例如 this onethis one , 收集所有数据并将其插入 MySQL 数据库。该脚本将每周或每两周运行一次,以更新添加到每个单独页面的任何新信息的数据库。

理想情况下,我想要一个易于处理表结构数据以及没有唯一标识符(即 id 和类属性)的数据的抓取工具。

我应该使用哪个抓取插件? BeautifulSoup , ScrapyMechanize

是否有任何特定的教程/书籍是我应该查看以获得所需结果的?

从长远来看,我将实现一个移动应用程序,通过查询数据库来处理所有这些数据。

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com