作者热门文章
- xml - AJAX/Jquery XML 解析
- 具有多重继承的 XML 模式
- .net - 枚举序列化 Json 与 XML
- XML 简单类型、简单内容、复杂类型、复杂内容
我正在编写一个应该能够同时解析多个页面的网络爬虫。我使用 Nokogiri 进行解析,这非常好,可以解决我所有的任务,但我不知道如何获得更好的性能。
我使用线程同时发出许多 open-uri 请求,这使处理速度更快,但似乎距离我可以从单个服务器实现的潜力还很远。我应该使用多个进程吗?单个 ruby 应用程序可以启动的线程和进程的限制是什么?
换句话说:如何在这种情况下实现最佳性能。
最佳答案
我很喜欢Typhoeus and Hydra一次处理多个请求。
Typhoeus是http客户端,Hydra是处理多个请求的部分。这些示例很好,请通读一下。
关于ruby - Ruby 中的网络爬虫 : How to achieve the best perfomance?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4687825/
我是一名优秀的程序员,十分优秀!