ruby-on-rails - 此 Ruby 代码是否正确使用线程、线程池和并发性-6ren

ruby-on-rails - 此 Ruby 代码是否正确使用线程、线程池和并发性

转载作者：行者123 更新时间：2023-12-03 12:45:48

我现在考虑的第 3 部分完成了 ping 一个非常大的 URL 列表(数量以千计)并检索与其关联的 URL 的 x509 证书的任务。第 1 部分是 here (How do I properly use threads to ping a URL)第 2 部分是 here (Why won't my connection pool implement my thread code) .

自从我问了这两个问题后，我现在得到了以下代码:

###### This is the code that pings a url and grabs its x509 cert #####

class SslClient
  attr_reader :url, :port, :timeout

  def initialize(url, port = '443')
    @url = url
    @port = port
  end

  def ping_for_certificate_info
    context = OpenSSL::SSL::SSLContext.new
    tcp_client = TCPSocket.new(url, port)
    ssl_client = OpenSSL::SSL::SSLSocket.new tcp_client, context
    ssl_client.hostname = url
    ssl_client.sync_close = true
    ssl_client.connect
    certificate = ssl_client.peer_cert
    verify_result = ssl_client.verify_result
    tcp_client.close
    {certificate: certificate, verify_result: verify_result }
  rescue => error
    {certificate: nil, verify_result: nil }
  end
end

上面的代码对于我检索 ssl_client.peer_cert 至关重要.下面我有以下代码，它是为他们的证书制作多个 HTTP ping 到 URL 的代码段:

  pool = Concurrent::CachedThreadPool.new
  pool.post do
    [LARGE LIST OF URLS TO PING].each do |struct|
       ssl_client = SslClient.new(struct.domain.gsub("*.", "www."), struct.scan_port)
       cert_info = ssl_client.ping_for_certificate_info
       struct.x509_cert = cert_info[:certificate]
       struct.verify_result = cert_info[:verify_result]
     end
   end

   pool.shutdown
   pool.wait_for_termination

   #Do some rails code with the database depending on the results.

到目前为止，当我运行这段代码时，速度慢得令人难以置信。我认为通过创建带有线程的线程池，代码会运行得更快。情况似乎并非如此，我不确定为什么。很多是因为我不知道线程、池、饥饿、锁等的细微差别。但是，在实现上述代码之后，我阅读了更多内容以尝试加快速度，但我再次感到困惑和可以使用一些说明来说明如何使代码更快。

对于初学者，在这篇优秀的文章中 here (ruby-concurrency-parallelism) .我们得到以下定义和概念:

Concurrency vs. Parallelism These terms are used loosely, but they do have distinct meanings.

Concurrency: The art of doing many tasks, one at a time. By switching between them quickly, it may appear to the user as though they happen simultaneously. Parallelism: Doing many tasks at literally the same time. Instead of appearing simultaneous, they are simultaneous. Concurrency is most often used for applications that are IO heavy. For example, a web app may regularly interact with a database or make lots of network requests. By using concurrency, we can keep our application responsive, even while we wait for the database to respond to our query.

This is possible because the Ruby VM allows other threads to run while one is waiting during IO. Even if a program has to make dozens of requests, if we use concurrency, the requests will be made at virtually the same time.

Parallelism, on the other hand, is not currently supported by Ruby.

因此，从这篇文章中，我了解到我想做的事情需要同时完成，因为我在网络上 ping URL 并且 Ruby 目前不支持并行。

接下来是让我感到困惑的地方。从关于 Stack Overflow 的第 1 部分问题中，我在给我的评论中了解到以下内容，我应该执行以下操作:

Use a thread pool; don't just create a thousand concurrent threads. For something like connecting to a URL where there will be a lot of waiting you can oversubscribe the number of threads per CPU core, but not by a huge amount. You'll have to experiment.

另一位用户这样说:

You'd not spawn thousands of threads, use a connection pool (e.g https://github.com/mperham/connection_pool) so you have maximum 20-30 concurrent requests going (this maximum number should be determined by testing at which point network performance drops and you get these timeouts)

所以对于这部分，我转向 concurrent-ruby并实现了 CachedThreadPool和 FixedThreadPool有 10 个线程。我选择了 `CachedThreadPool，因为在我看来，所需的线程数将由 Threadpool 为我处理。现在在并发 ruby 的池文档中，我看到了这个:

pool = Concurrent::CachedThreadPool.new
pool.post do
  # some parallel work
end

我以为我们刚刚在第一篇文章中建立了 Ruby 不支持并行性，那么线程池是做什么的呢？它是同时工作还是并行工作？到底发生了什么？我是否需要线程池？同样在这个时间点，我认为连接池和线程池是相同的，只是可以互换使用。这两个池有什么区别，我需要哪一个？

在另一篇优秀文章 How to Perform Concurrent HTTP Requests in Ruby and Rails ，本文介绍 Concurrent::Promises类形式并发 ruby 以避免锁定并通过两个 api 调用具有线程安全性。这是下面的代码片段，其中包含以下描述:

def get_all_conversations
  groups_thread = Thread.new do
    get_groups_list
  end

  channels_thread = Thread.new do
    get_channels_list
  end

  [groups_thread, channels_thread].map(&:value).flatten
end

Every request is executed it its own thread, which can run in parallel because it is a blocking I/O. But can you see a catch here?

在上面的代码中，我们刚刚提到的并行性在 ruby 中不存在。以下是 Concurrent::Promise 的方法

def get_all_conversations
  groups_promise = Concurrent::Promise.execute do
    get_groups_list
  end

  channels_promise = Concurrent::Promise.execute do
    get_channels_list
  end

  [groups_promise, channels_promise].map(&:value!).flatten
end

因此，根据这篇文章，这些请求是“并行”提出的。我们现在还在谈论并发吗？

最后，在这两篇文章中，他们谈到了使用 Futures用于并发 http 请求。我不会详细介绍，但我会在此处粘贴链接。

1. Using Concurrent Ruby in a Ruby on Rails Application
2. Learn Concurrency by Implementing Futures in Ruby

再一次，文章中讨论的内容在我看来就像 Concurrent::Promise功能。我只想指出，这些示例展示了如何将这些概念用于需要组合在一起的两个不同 API 调用。这不是我需要的。我只需要快速进行数千次 API 调用并记录结果。

总之，我只想知道我需要做什么才能使我的代码更快并且线程安全以使其同时运行。为了让代码运行得更快，我究竟缺少什么，因为现在它运行得太慢了，以至于我可能一开始就没有使用线程。

概括

我必须使用线程 ping 数千个 URL 以加快进程。代码很慢，如果我正确使用线程、线程池和并发，我会感到困惑。

最佳答案

让我们看看您描述的问题，并尝试一次解决这些问题:

你有两条代码，SslClient以及使用此 ssl 客户端的脚本。根据我对线程池的理解，你使用线程池的方式需要稍微改变一下。

从:

pool = Concurrent::CachedThreadPool.new
pool.post do
 [LARGE LIST OF URLS TO PING].each do |struct|
    ssl_client = SslClient.new(struct.domain.gsub("*.", "www."), struct.scan_port)
    cert_info = ssl_client.ping_for_certificate_info
    struct.x509_cert = cert_info[:certificate]
    struct.verify_result = cert_info[:verify_result]
  end
end

pool.shutdown
pool.wait_for_termination

到:

pool = Concurrent::FixedThreadPool.new(10) 

[LARGE LIST OF URLS TO PING].each do | struct |
  pool.post do 
   ssl_client = SslClient.new(struct.domain.gsub("*.", "www."), struct.scan_port)
   cert_info = ssl_client.ping_for_certificate_info
   struct.x509_cert = cert_info[:certificate]
   struct.verify_result = cert_info[:verify_result]
  end
end

pool.shutdown
pool.wait_form

在初始版本中，只有一个工作单元发布到池中。在第二个版本中，我们将与 LARGE LIST OF URLS TO PING 中的项目一样多的工作单元发布到池中。 .

添加更多关于 Ruby 中并发与并行性的信息，由于 GIL(全局解释器锁)，Ruby 确实不支持真正的并行性，但这仅适用于我们实际上在 CPU 上执行任何数量的工作时。在网络请求的情况下，与 IO 绑定(bind)的工作相比，CPU 绑定(bind)的工作持续时间可以忽略不计，这意味着您的用例非常适合使用线程。

此外，通过使用线程池，我们可以最大限度地减少 CPU 产生的线程创建开销。当我们使用线程池时，例如在 Concurrent::FixedThreadPool.new(10) 的情况下，我们实际上是在限制池中可用的线程数，对于未绑定(bind)的线程池，每次当一个单元时都会创建新线程存在工作，但池中的其余 thre 线程正忙。

在 first article ，需要收集每个 worker 返回的结果，并在出现异常时采取有意义的行动(我是作者)。您应该能够使用该博客中给出的类而无需任何更改。

让我们尝试使用 Concurrent::Future 重写您的代码，因为在您的情况下，我们也需要结果。


thread_pool = Concurrent::FixedThreadPool.new(20)

executors = [LARGE LIST OF URLS TO PING].map do | struct |
  Concurrent::Future.execute({ executor: thread_pool }) do
    ssl_client = SslClient.new(struct.domain.gsub("*.", "www."), struct.scan_port)
    cert_info = ssl_client.ping_for_certificate_info
    struct.x509_cert = cert_info[:certificate]
    struct.verify_result = cert_info[:verify_result]
    struct
  end
end

executors.map(&:value)

我希望这有帮助。如有问题，请在评论中提问，我将修改这篇文章以回答这些问题。

关于ruby-on-rails - 此 Ruby 代码是否正确使用线程、线程池和并发性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60217604/

文章推荐： spring - blockingqueue 和 Spring - 如何在启动时启动线程池？

ruby - Ruby:Ruby Socket对象中的remote_address/local_address存放在哪里？
以下是一个非常简单的ruby服务器。 require 'socket' local_socket = Socket.new(:INET, :STREAM) local_addr = Socket.
ruby - 启动没有前缀 "Ruby"的 Ruby
我正在使用 OS X(使用 bash)，并且是 unix 的新手。我想知道是否可以修改一些文件以便运行 ruby 程序，我不需要“ruby file.rb”，而是可以运行“ruby.rb”。有理
ruby - ruby 如何完成这项任务(Ruby 中不区分大小写的字符串搜索和替换)？
我在用 Ruby 替换字符串时遇到一些问题。我的原文:人之所为不如兽之所为。我想替换为:==What== human does is not like ==what== animal does.
ruby - 从 Ruby 程序执行 Ruby 程序的最佳方式是什么？
我想在一个循环中从 Ruby 脚本做这样的事情: 写一个文件a.rb(每次迭代都会改变) 执行系统(ruby 'a.rb') a.rb 将带有结果的字符串写入文件“results” a.rb 完成并且
ruby-on-rails - Ruby on Rails - 需要为应用程序使用旧版本的 ruby
我的问题是尝试创建一个本地服务器，以便我可以理解由我的新团队开发的应用程序。我的问题是我使用的是 Ruby 2.3.3，而 Gemfile 需要 2.3.1。我无法编辑 Gemfile，因为我被告知很
ruby - 如何为用 Ruby 编写的 Ruby 命令行实用程序提供配置文件？
我有一个使用 GLI 框架用 Ruby 编写的命令行实用程序。我想在我的主目录中配置我的命令行实用程序，使用 Ruby 本身作为 DSL 来处理它(类似于 Gemfile 或 Rakefile)。我
ruby - 什么时候 Ruby 类不是那个 Ruby 类？
我的 Rails 应用 Controller 中有这段代码: def delete object = model.datamapper_class.first(:sourced_id =>
ruby - 您建议使用哪种 Ruby 解析器来解析 Ruby 源代码？
我正在寻找的解析器应该: 对 Ruby 解析友好，规则设计优雅，产生用户友好的解析错误，用户文档的数量应该比计算器示例多， UPD:允许在编写语法时省略可选的空格。快速解析不是一个重要的特性。
ruby - 有哪些设计良好的 Ruby 项目适合学习 Ruby 编码方式？
我刚开始使用 Ruby，听说有一种“Ruby 方式”编码。除了 Ruby on Rails 之外，还有哪些项目适合学习并被认可且设计良好？最佳答案 Prawn被明确地创建为不仅是一个该死的好 PDF
ruby - 如何创建无需在终端中调用 "Ruby"即可运行的 Ruby 应用程序？
我知道之前有人问过类似的问题，但是我该如何构建一个无需在前面输入“ruby”就可以在终端中运行的 Ruby 文件呢？这里的最终目标是创建一个命令行工具包类型的东西。现在，为了执行我希望用户能够执行的
ruby - 有没有更好的方法来判断一个 ruby 是否在另一个 ruby 中散列？
例如哈希a是{:name=>'mike',:age=>27,:gender=>'male'}哈希 b 是 {:name=>'mike'} 我想知道是否有更好的方法来判断 b 哈希是否在 a 哈希内，而
ruby - Ruby 和 Ruby on Rails 中的三层架构
我是一名决定学习 Ruby 和 Ruby on Rails 的 ASP.NET MVC 开发人员。我已经有所了解并在 RoR 上创建了一个网站。在 ASP.NET MVC 上开发，我一直使用三层架构:
ruby - 通过 MacVim (!ruby) 执行时如何运行正确版本的 Ruby
最近我看到 Gary Bernhardt 展示了他用来在 vim 中执行 Ruby 代码的 vim 快捷方式。捷径是 :map ,t :w\|:!ruby %. 似乎这个方法总是执行系统 Rub
ruby - 如果 Ruby 的所有实现都被编译成字节码，Ruby 真的是一种解释型语言吗？
在为 this question about Blue Ruby 选择的答案中，查克说: All of the current Ruby implementations are compiled to
ruby-on-rails - Ruby:如何对 Ruby 数组进行分组？
我有一个 Ruby 数组 > list = Request.find_all_by_artist("Metallica").map(&:song) => ["Nothing else Matters"
ruby-on-rails - Ruby:Ruby 中的舍入 float
我在四舍五入时遇到问题。我有一个 float ，我想将其四舍五入到小数点后的百分之一。但是，我只能使用 .round ，它基本上将它变成一个 int，意思是 2.34.round # => 2. 有没
ruby-on-rails - ruby/ruby on rails 内存泄漏检测
我使用 ruby on rails 编写了一个小型 Web 应用程序，它的主要目的是上传、存储和显示来自 xml(文件最多几 MB)文件的结果。运行大约 2 个月后，我注意到 mongrel 进程
ruby - 转换奇怪的字符 - Ruby
我们如何用 Ruby 转换像这样的字符串: 𝑙𝑎𝑡𝑜𝑟𝑟𝑒 收件人: Latorre 最佳答案 s = "𝑙𝑎𝑡𝑜𝑟𝑟𝑒" => "𝑙𝑎𝑡𝑜𝑟𝑟𝑒" s.u
ruby - Ruby 变量前的感叹号
通过 ruby monk 时，他们偶尔会从左侧字段中抛出一段语法不熟悉的代码: def compute(xyz) return nil unless xyz xyz.map {|a,
ruby - 返回字符串中的最高和最低数字 : Ruby
不确定我做错了什么，但我似乎弄错了。问题是，给你一串空格分隔的数字，你必须返回最大和最小的数字。注意:所有数字都是有效的 Int32，不需要验证它们。输入字符串中始终至少有一个数字。输出字符串必须

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

ruby-on-rails - 此 Ruby 代码是否正确使用线程、线程池和并发性