gpt4 book ai didi

ruby-on-rails - 我有一系列链接,想解析每个链接,使用 Nokogiri 检查每个链接的最有效方法是什么? - ruby

转载 作者:数据小太阳 更新时间:2023-10-29 08:10:01 27 4
gpt4 key购买 nike

假设我有一个如下所示的数组:

links = [['May 1', 'Link A', 'www.linka.com'], ['May 2', 'Link B', 'www.linkb.com']]

我想用 Nokogiri 做的是转到每个链接并在每个页面上返回特定文本(根据我拥有的 xpath)。

我知道我可以做类似的事情:

links.each do |x|
doc = Nokogiri::HTML(open(x[2]))
end

然后在 each 循环中遍历每个 doc。但是,考虑到我的数组中可能有 700 个项目……这似乎效率很低。有各种嵌套循环等等。

有没有更有效的方法来解决这个问题?

谢谢。

最佳答案

您可能希望查看诸如 TyphoeusEM-HTTP-Request 之类的东西来并行化您的 HTTP 请求。

使用 Nokogiri 处理页面本身将是一项受 CPU 限制的任务,因此多线程处理该任务不会给您带来太多(或任何)加速。

最大的减速将来自 HTTP 请求,因此让这些请求并行执行将提供最大的加速。

伤寒:
https://github.com/typhoeus/typhoeus

EM-HTTP-请求:
https://github.com/igrigorik/em-http-request

关于ruby-on-rails - 我有一系列链接,想解析每个链接,使用 Nokogiri 检查每个链接的最有效方法是什么? - ruby ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10868400/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com