ruby-on-rails - ruby 2.1.2 超时仍然不是线程安全的吗？-6ren

ruby-on-rails - ruby 2.1.2 超时仍然不是线程安全的吗？

转载作者：数据小太阳更新时间：2023-10-29 07:32:01

25

4

我有 50 个 sidekiq 线程在网络上爬行，几周前线程在运行大约 20 分钟后开始挂起。当我进行回溯转储时，大多数线程都停留在 net/http initialize 上:

/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/net/http.rb:879:in `initialize'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/net/http.rb:879:in `open'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/net/http.rb:879:in `block in connect'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/timeout.rb:76:in `timeout'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/net/http.rb:878:in `connect'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/net/http.rb:863:in `do_start'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/net/http.rb:858:in `start'
/app/vendor/bundle/ruby/2.1.0/gems/net-http-persistent-2.9.4/lib/net/http/persistent.rb:700:in `start'
/app/vendor/bundle/ruby/2.1.0/gems/net-http-persistent-2.9.4/lib/net/http/persistent.rb:631:in `connection_for'
/app/vendor/bundle/ruby/2.1.0/gems/net-http-persistent-2.9.4/lib/net/http/persistent.rb:994:in `request'
/app/vendor/bundle/ruby/2.1.0/gems/mechanize-2.7.2/lib/mechanize/http/agent.rb:257:in `fetch'
/app/vendor/bundle/ruby/2.1.0/gems/mechanize-2.7.2/lib/mechanize/http/agent.rb:974:in `response_redirect'
/app/vendor/bundle/ruby/2.1.0/gems/mechanize-2.7.2/lib/mechanize/http/agent.rb:298:in `fetch'
/app/vendor/bundle/ruby/2.1.0/gems/mechanize-2.7.2/lib/mechanize.rb:432:in `get'
/app/app/workers/crawl_page.rb:24:in `block in perform'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/timeout.rb:91:in `block in timeout'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/timeout.rb:35:in `block in catch'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/timeout.rb:35:in `catch'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/timeout.rb:35:in `catch'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/timeout.rb:106:in `timeout'

我不认为 sidekiq 会卡在 net/http 上，因为我已经将整个调用包装在超时中:Timeout::timeout(APP_CONFIG['crawl_page_timeout']) { @page = agent.get (网址)

...但后来我开始阅读一些关于 ruby 的超时如何不是线程安全的旧帖子:http://blog.headius.com/2008/02/rubys-threadraise-threadkill-timeoutrb.html

ruby的Timeout还不是线程安全的吗？

我知道很多人用 Ruby 编写爬虫。如果 Timeout 不是线程安全的，人们如何编写爬虫来处理 net/http 卡住的问题？

更新:

我已经切换到 HTTPClient(特别说明它的线程安全)来替换 mechanize。我们似乎仍然卡在初始化线程上。同样，这可能是由于 ruby 的 Timeout 无法正常工作，或者可能是 sidekiq 问题。这是最近挂起的 sidekiq 线程的堆栈跟踪:

/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient/session.rb:805:in `initialize'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient/session.rb:805:in `new'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient/session.rb:805:in `create_socket'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient/session.rb:752:in `block in connect'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/timeout.rb:91:in `block in timeout'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/timeout.rb:101:in `call'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/timeout.rb:101:in `timeout'
/app/vendor/ruby-2.1.2/lib/ruby/2.1.0/timeout.rb:127:in `timeout'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient/session.rb:751:in `connect'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient/session.rb:609:in `query'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient/session.rb:164:in `query'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient.rb:1087:in `do_get_block'
/app/vendor/bundle/ruby/2.1.0/gems/newrelic_rpm-3.9.2.239/lib/new_relic/agent/instrumentation/httpclient.rb:34:in `block in do_get_block_with_newrelic'
/app/vendor/bundle/ruby/2.1.0/gems/newrelic_rpm-3.9.2.239/lib/new_relic/agent/cross_app_tracing.rb:43:in `tl_trace_http_request'
/app/vendor/bundle/ruby/2.1.0/gems/newrelic_rpm-3.9.2.239/lib/new_relic/agent/instrumentation/httpclient.rb:33:in `do_get_block_with_newrelic'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient.rb:891:in `block in do_request'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient.rb:985:in `protect_keep_alive_disconnected'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient.rb:890:in `do_request'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient.rb:963:in `follow_redirect'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient.rb:776:in `request'
/app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient.rb:677:in `get'
/app/app/ohm_models/queued_page.rb:20:in `run_crawl'

最佳答案

正确，在 Ruby 代码中使用 Timeout 仍然不安全，除非您确切地知道该 block 中发生了什么(包括任何 C 代码可能是什么)正在做)。因此，我亲眼目睹了连接池中发生的灾难性事件。

您可能能够避免错误并重试，但如果您不走运，您的过程可能会卡住并需要重新启动。

如果您创建新进程，如果它们运行时间长，您可以安全地杀死它们(或使用 timeout(1) 因为它们没有任何方法可以破坏您的父进程。

I know a lot of people write crawlers in Ruby. If Timeout isn't thread-safe, how are people writing crawlers handling the issue of net/http getting stuck?

您有具体的行之有效的示例吗？

关于ruby-on-rails - ruby 2.1.2 超时仍然不是线程安全的吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25803089/

25

4

0

文章推荐： ruby-on-rails - RoR 从 ActiveRecord::Relation 中获取属性

文章推荐： ios - 在 iPhone 应用程序中使用 SSL - 导出合规

ruby-on-rails - rails : What is `sanitize` in Rails?
sanitize 是什么意思在 Rails 中是什么意思？我正在阅读 CanCanCan 的文档.它说: When using strong_parameters or Rails 4+, you
ruby-on-rails - Rails on Rails 将其提升到一个新的水平
在过去的几个月里，我感觉自己对 Ruby on Rails (RoR) 开发的了解达到了极限。我为大/小客户和 friend /爱好项目开发了大大小小的应用程序。我知道如何开发这些应用程序，但开始感觉
ruby-on-rails - rails : How do I make my rails project a Hexagonal rails project?
我昨天参加了一个关于扩展 Rails 的聚会，其中一个主题是 Hexagonal Rails。然而，我只做了一年的 Rails，对 MVC 结构非常满意(也许太舒服了)，所以我不太了解适配器和消息队列
ruby-on-rails - 改善缓慢的 Rails 启动时间(rails 控制台、rails 服务器)
我使用多个 Rails 应用程序，一些在 Rails 3.2/Ruby 2.0 上，一些在 Rails 2.3/Ruby 1.8.7 上。他们的共同点是，随着他们的成长和添加更多的依赖项/ gem
ruby-on-rails - rails 6 : Rails not defined
这个问题在这里已经有了答案: Using Rails-UJS in JS modules (Rails 6 with webpacker) (5 个答案) 关闭 3 年前。我正在尝试使用 UJS
ruby-on-rails - 我应该如何升级 Rails 应用程序以使用最新版本的 Rails
我正在开发一个当前使用 Rails 1.2 的 Rails 应用程序，所以我现在离最新的稳定版本(Rails 2.3)还有很长的路要走。我应该如何进行迁移到更新版本的 Rails 的过程？我应该一
ruby-on-rails - rails : backbone-on-rails gem-
尝试按照 Ryan Bates Backbone.js 教程构建抽奖应用程序，但我已经遇到了第一段代码的问题。在 application.js 的 init 函数中，他初始化了 Raffler 路由的
ruby-on-rails - rails : Or & and in Rails ActiveRecord where clause
我正在使用 Rails 3.2 并且我有一个数据库表，我想在其中找到符合以下条件的所有行: a = true and b = true and ( 0 true, :b =>
ruby-on-rails - Rails - 跳过子类的 rails 验证
我有一个用户类和一个联系人，其中联系人是用户的子类。这两个类都存储在用户表中。我的联系人可能有也可能没有电子邮件地址，而我的用户需要一个电子邮件地址(我的用户模型定义中有 validates_pre
ruby-on-rails - 脚本/rails 与 rails
我正在编写一个教程，我在其中演示了一些 rails 命令。在我的机器上 rails和 script/rails两者都同样有效。有“首选”形式吗？两者中哪一个更普遍？最佳答案当您运行 rails 时
ruby-on-rails - rails 4，elasticsearch-rails
我正在寻找有关通过我的应用程序前进的最佳方式的建议，这是我首次开始集成Elasticsearch。我是一名初学者，但是热衷于深入研究，以便原谅任何明显的错误! 我遵循了http://www.sitep
ruby-on-rails - Rails 真的很奇怪启动 Rails 服务器的问题
我刚刚用 Rails new 启动了一个新的 Rails 应用程序，将默认数据库设置更改为 PostgresSQL。我用 bin/rails s 启动服务器，结果很奇怪 2016-04-21 05:0
ruby-on-rails - Rails - 如果不是数组 rails，则将字符串转换为数组的好方法
我收到一个参数并希望它是这样的字符串: "abc,efg" 或者像这样的数组 ["abc","efg"] 在第一种情况下，我想将它转换成一个数组，什么是好的方法？这是我的想法 if params[:
ruby-on-rails - Rails 真的很奇怪启动 Rails 服务器的问题
我刚刚用 Rails new 启动了一个新的 Rails 应用程序，将默认数据库设置更改为 PostgresSQL。我用 bin/rails s 启动服务器，结果很奇怪 2016-04-21 05:0
ruby-on-rails - Rails - 如果不是数组 rails，则将字符串转换为数组的好方法
我收到一个参数并希望它是这样的字符串: "abc,efg" 或者像这样的数组 ["abc","efg"] 在第一种情况下，我想将它转换成一个数组，什么是好的方法？这是我的想法 if params[:
ruby-on-rails - Rails 4 railties 的可执行文件 "rails"与 rails 冲突
我有 Rails 4，这是我的默认版本(我仍然希望它是)。但我不想在我的电脑上添加 rails 3.2。在以下命令中:gem install rails -v 3.2.16 我有这个警告: railt
ruby-on-rails - rails + sheevaplug = rails 家庭开发服务器等等
您好，我想使用 Sheevaplug 构建一个“Rails Brick”来自 Marvell(操作系统是开箱即用的 Ubuntu，但您可以在其上安装其他发行版)。它将成为家庭服务器和静音、低成本(99
ruby-on-rails - Rails -- 从 Rails 控制台发送所有未接受的邀请
我需要能够从 Rails 控制台发送我的 Rails 应用程序的 Postgres 数据库中所有未接受的邀请。 (我有一个名为 Invitations 的表，其中包含一个名为 accepted 的 b
ruby-on-rails - Rspec rails on rails 验证
validate :cannot_modify_if_locked, on: :update def cannot_modify_if_locked if self.locked erro
ruby-on-rails - Rails 路由语法 - 从 rails 2 到 rails 3
我正在学习教程(学习 Rails 播客)，需要更改以下路由语法，以便它与 Rails 3.0 兼容。谁能帮忙？ map.view_page ':name', :controller => 'viewe

首页

博学

6Ren·AI

商城

ruby-on-rails - ruby 2.1.2 超时仍然不是线程安全的吗？