gpt4 book ai didi

python - 抓取动态网站

转载 作者:太空狗 更新时间:2023-10-29 17:40:10 27 4
gpt4 key购买 nike

抓取大部分内容似乎是由 ajax 请求生成的动态网站的最佳方法是什么?我以前有使用 Mechanize、BeautifulSoup 和 Python 组合的经验,但我正在准备一些新东西。

--编辑--有关更多详细信息:我正在尝试抓取 CNN primary database .那里有大量信息,但似乎没有 API。

最佳答案

这是一个难题,因为您要么必须在每个站点的基础上对 javascript 进行逆向工程,要么实现 javascript 引擎并运行脚本(这有其自身的困难和陷阱)。

这是一个重量级的解决方案,但我见过有人使用 greasemonkey 脚本来实现这一点 - 允许 Firefox 呈现所有内容并运行 javascript,然后抓取元素。如果需要,您甚至可以在页面上启动用户操作。

-亚当

关于python - 抓取动态网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/206855/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com