gpt4 book ai didi

ruby-on-rails - 在 ruby​​ 进程之间处理大数据对象

转载 作者:数据小太阳 更新时间:2023-10-29 07:06:56 24 4
gpt4 key购买 nike

如果使用 Marshal.dump 写入文件,我有一个 Ruby 散列达到大约 10 兆字节。 gzip 压缩后约为 500 KB。

在 ruby​​ 中迭代和改变这个散列是非常快的(几分之一毫秒)。即使复制它也非常快。

问题是我需要在 Ruby on Rails 进程之间共享此散列中的数据。为了使用 Rails 缓存(file_store 或 memcached)执行此操作,我需要先 Marshal.dump 文件,但这会在序列化文件时产生 1000 毫秒的延迟,在序列化文件时产生 400 毫秒的延迟。

理想情况下,我希望能够在 100 毫秒内从每个进程保存和加载此哈希。

一个想法是生成一个新的 Ruby 进程来保存这个散列,该散列为其他进程提供 API 以修改或处理其中的数据,但我想避免这样做,除非我确定没有其他快速共享此对象的方法。

有没有一种方法可以更直接地在进程之间共享此哈希值,而无需对其进行序列化或反序列化?

这是我用来生成类似于我正在使用的散列的代码:

@a = []
0.upto(500) do |r|
@a[r] = []
0.upto(10_000) do |c|
if rand(10) == 0
@a[r][c] = 1 # 10% chance of being 1
else
@a[r][c] = 0
end
end
end

@c = Marshal.dump(@a) # 1000 milliseconds
Marshal.load(@c) # 400 milliseconds

更新:

由于我最初的问题没有收到很多回复,我假设没有像我希望的那样简单的解决方案。

目前我正在考虑两种选择:

  1. 创建一个 Sinatra 应用程序来存储此哈希值,并使用 API 来修改/访问它。
  2. 创建一个 C 应用程序来执行与 #1 相同的操作,但速度要快得多。

我的问题范围已经扩大,以至于散列可能比我原来的例子更大。所以#2 可能是必要的。但就编写公开适当 API 的 C 应用程序而言,我不知道从哪里开始。

关于如何最好地实现 #1 或 #2 的良好演练可能会获得最佳答案。

更新 2

我最终将其实现为一个用 Ruby 1.9 编写的单独应用程序,它有一个 DRb 接口(interface)来与应用程序实例通信。我使用 Daemons gem 在 Web 服务器启动时生成 DRb 实例。在启动时,DRb 应用程序从数据库中加载必要的数据,然后它与客户端通信以返回结果并保持最新状态。它现在在生产中运行得很好。感谢您的帮助!

最佳答案

sinatra 应用可以运行,但与 DRb 服务相比,{un}序列化和 HTML 解析可能会影响性能。

这是一个示例,基于您在相关问题中的示例。我使用的是散列而不是数组,因此您可以使用用户 ID 作为索引。这样就不需要在服务器上同时保留兴趣表和用户 ID 表。请注意,与您的示例相比,兴趣表是“转置”的,无论如何这是您想要的方式,因此它可以在一次调用中更新。

# server.rb
require 'drb'

class InterestServer < Hash
include DRbUndumped # don't send the data over!

def closest(cur_user_id)
cur_interests = fetch(cur_user_id)
selected_interests = cur_interests.each_index.select{|i| cur_interests[i]}

scores = map do |user_id, interests|
nb_match = selected_interests.count{|i| interests[i] }
[nb_match, user_id]
end
scores.sort!
end
end

DRb.start_service nil, InterestServer.new
puts DRb.uri

DRb.thread.join


# client.rb

uri = ARGV.shift
require 'drb'
DRb.start_service
interest_server = DRbObject.new nil, uri


USERS_COUNT = 10_000
INTERESTS_COUNT = 500

# Mock users
users = Array.new(USERS_COUNT) { {:id => rand(100000)+100000} }

# Initial send over user interests
users.each do |user|
interest_server[user[:id]] = Array.new(INTERESTS_COUNT) { rand(10) == 0 }
end

# query at will
puts interest_server.closest(users.first[:id]).inspect

# update, say there's a new user:
new_user = {:id => 42}
users << new_user
# This guy is interested in everything!
interest_server[new_user[:id]] = Array.new(INTERESTS_COUNT) { true }

puts interest_server.closest(users.first[:id])[-2,2].inspect
# Will output our first user and this new user which both match perfectly

要在终端中运行,启动服务器并将输出作为参数提供给客户端:

$ ruby server.rb
druby://mal.lan:51630

$ ruby client.rb druby://mal.lan:51630
[[0, 100035], ...]

[[45, 42], [45, 178902]]

关于ruby-on-rails - 在 ruby​​ 进程之间处理大数据对象,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2909909/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com