作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想从一个网站(不是我自己的)抓取一些特定的值(例如新闻文本)。
file_get_contents()
不工作,可能被 php.ini 阻止了。
所以我试着用curl来做,问题是:
我得到的只是来自 cloudflare 的重定向文本。
我的爬虫应该做类似的事情:
转到页面 -> 等待 5 秒 cloudflare 重定向 -> curl 页面。
关于如何在 cloudfare 等待时间后抓取页面的任何想法? (在 PHP 中)
编辑:所以我尝试了很多东西,问题还是一样。
更具体:它只抓取 cloudflare 重定向页面。 (所以我得到一个重定向到主机的页面,cloudflare 在前面。当我在 localhost 上 curl 时它需要 localhost,所以重定向是 obv 不工作。)有没有办法在“ curl ”5 秒后开始保存返回数据?
最佳答案
“转到页面 -> 等待 5 秒 cloudflare 重定向 -> curl 页面。”
5 秒插页实际上要求在访问者通过检查之前启用 JavaScript 和 cookie,如果您使用爬虫或机器人访问该网站,这可能不起作用。
关于PHP爬取一个使用cloudflare的网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31182100/
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,
我是一名优秀的程序员,十分优秀!