gpt4 book ai didi

ruby - Ruby 中的网络爬虫 : How to achieve the best perfomance?

转载 作者:数据小太阳 更新时间:2023-10-29 08:16:07 27 4
gpt4 key购买 nike

我正在编写一个应该能够同时解析多个页面的网络爬虫。我使用 Nokogiri 进行解析,这非常好,可以解决我所有的任务,但我不知道如何获得更好的性能。

我使用线程同时发出许多 open-uri 请求,这使处理速度更快,但似乎距离我可以从单个服务器实现的潜力还很远。我应该使用多个进程吗?单个 ruby​​ 应用程序可以启动的线程和进程的限制是什么?

换句话说:如何在这种情况下实现最佳性能。

最佳答案

我很喜欢Typhoeus and Hydra一次处理多个请求。

Typhoeus是http客户端,Hydra是处理多个请求的部分。这些示例很好,请通读一下。

关于ruby - Ruby 中的网络爬虫 : How to achieve the best perfomance?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4687825/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com