gpt4 book ai didi

php - 如何使用 PHP 从另一个网站获取数据并将其存储在 MySQL 数据库中?

转载 作者:行者123 更新时间:2023-11-29 00:53:37 25 4
gpt4 key购买 nike

我需要使用 PHP 从网站获取数据并将其保存在 MySQL 数据库中。我还想获取图像并将它们保存在我的服务器中,以便我可以在我的站点中显示它们。我听说可以为此使用一个 API,但我想知道我是否可以使用 CURL 来做到这一点。我每天要获取大量数据,那么使用CURL会不会消耗大量服务器端资源?还有哪些其他方法可以获取数据?

最佳答案

我认为这更像是一个堆栈溢出问题,但我会尽力回答。

从您的描述来看,您似乎想要一个通用的网络爬虫。有几个解决方案。编写您的相对容易。

问题是 php 和 curl 很慢。很可能您可以输入内存问题和脚本执行时间。 Php 并非设计为在无限循环中运行。

我将如何使用自定义爬虫:

尊重robots.txt!尊重连接数!

Php: curl url,将其加载到 dom(惰性)或解析获取所有标签(用于下一个链接),然后下载所有 img 标签。将 a 标签 hrefs 添加到 HashMap 和队列中。 hashmap 不要重新抓取已经访问过的。 Queue - 为下一个工作。冲洗重复,你在做生意。

Java : Webdriver + chrome + browsermob 爬虫,几行代码就可以搞定。你会发现一些你会错过的 js 东西。缓慢但容易和懒惰。您将直接从代理拦截所有图像。

Java/C#:适当的、异步的、高性能的爬虫,后面有类似 magestic 12 html 解析器的东西。每分钟可以处理2000个页面,将赢得任何站长的千古仇恨。

您还可以查看 lucent - apache 项目的一部分。

关于php - 如何使用 PHP 从另一个网站获取数据并将其存储在 MySQL 数据库中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7194880/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com