gpt4 book ai didi

php - 如何使用 php 自动抓取网页?

转载 作者:行者123 更新时间:2023-11-29 01:17:10 25 4
gpt4 key购买 nike

<分区>

让我解释一下我的情况。

我有一个包含 1000 万个页面 URL 的列表。我希望抓取这些页面并将其作为原始 html 保存在数据库中。

截至目前,我正在使用 CURL 废弃这些页面。每次我访问 index.php 时,它都会抓取一个页面 url 并将其保存在数据库中。

现在我认为自己使用浏览器访问该 index.php 1000 万次是不可能的。

我可以使用do while loop。但我认为完成任务需要很长时间。还有内存问题。

有人能给我指明正确的方向,让这项任务变得轻松吗。

我拥有一台配备 1GB RAM 和 WHM/cPanel 的 Linux VPS 服务器。

PS:我考虑过 CRON。但我必须在 cron 中定义时间。即使我使用 cron 每 1 分钟运行一次脚本,我也只能在 24 小时内完成 1440 个 url。那么有人可以给我一些使用 cron 在一天内完成 atleast 100,000 url 的想法吗?

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com