gpt4 book ai didi

PHP爬取一个使用cloudflare的网站

转载 作者:行者123 更新时间:2023-12-04 18:03:30 27 4
gpt4 key购买 nike

我想从一个网站(不是我自己的)抓取一些特定的值(例如新闻文本)。

file_get_contents() 不工作,可能被 php.ini 阻止了。

所以我试着用curl来做,问题是:
我得到的只是来自 cloudflare 的重定向文本。
我的爬虫应该做类似的事情:
转到页面 -> 等待 5 秒 cloudflare 重定向 -> curl 页面。

关于如何在 cloudfare 等待时间后抓取页面的任何想法? (在 PHP 中)

编辑:所以我尝试了很多东西,问题还是一样。
更具体:它只抓取 cloudflare 重定向页面。 (所以我得到一个重定向到主机的页面,cloudflare 在前面。当我在 localhost 上 curl 时它需要 localhost,所以重定向是 obv 不工作。)有没有办法在“ curl ”5 秒后开始保存返回数据?

最佳答案

“转到页面 -> 等待 5 秒 cloudflare 重定向 -> curl 页面。”

5 秒插页实际上要求在访问者通过检查之前启用 JavaScript 和 cookie,如果您使用爬虫或机器人访问该网站,这可能不起作用。

关于PHP爬取一个使用cloudflare的网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31182100/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com