gpt4 book ai didi

php - 更快地抓取页面 [PHP]

转载 作者:行者123 更新时间:2023-12-04 05:39:57 25 4
gpt4 key购买 nike

我有一个关于在 PHP 中抓取网页的小问题。我必须在一家大型网上商店抓取大约 90 000 种产品。我在 PHP 中尝试过,但一个产品需要大约 2-3 秒,这很糟糕。任何提示,如何更快地做到这一点?也许是 C++ 多线程版本?但是 HTTP 请求的时间呢?我的意思是,这是 PHP 的限制吗?感谢您的小费。

最佳答案

这是一个非常模糊的问题。当您对自己的代码进行基准测试时,最慢的部分是什么?是网络传输时间吗?使用不同的语言(或多个线程)不会改变这一点。

花时间解析页面了吗?你是怎么做的?如果您使用 XML 库来解析整个 DOM,您是否可以只查找关键字(甚至正则表达式)?这不太精确(并且在某种意义上不太正确),但也许更快。

您使用什么算法进行分析?其他数据结构会提供更好的性能吗?举一个简单的例子,如果你花费大量时间迭代一个数组,也许哈希映射更合适。

PHP 可以在多个进程中运行。如果您一次启动脚本的多个实例(在不同的页面上)会发生什么?总时间会减少吗?

最终,您描述了一个非常普遍的问题,因此我无法提供非常具体的解决方案,但没有内在的原因说明 PHP 不适合此任务。当您确定什么是缓慢的(无论您使用什么语言)后,您应该能够更准确地解决如何修复它。

关于php - 更快地抓取页面 [PHP],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11378347/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com