docker - 如何将 gensim 的 KeyedVectors 对象存储在 Redis 队列工作程序内的全局变量中-6ren

docker - 如何将 gensim 的 KeyedVectors 对象存储在 Redis 队列工作程序内的全局变量中

转载作者：行者123 更新时间：2023-12-02 19:54:47

25

4

我正在尝试将数据存储在 Redis 队列 (RQ) 工作程序内的全局变量中，以便这些数据保持预加载，即不需要为每个 RQ 作业加载它。

具体来说，我正在使用 Word2Vec 向量并使用 gensim 的 KeyedVectors 加载它们。

我的应用程序在 Python Flask 中，在 Linux 服务器上运行，使用 Docker 进行容器化。

我的目标是通过始终将少量大型矢量文件加载到内存中来减少处理时间。

我首先尝试将它们存储在 Flask 中的全局变量中，但随后我的 8 个 gunicorn 工作人员中的每一个都加载了向量，这会占用大量 RAM。

我只需要一个 worker 来存储一个特定的向量文件。

有人告诉我，一种解决方案是让一组 RQ 工作人员将向量保存在一个全局变量中，这样我就可以控制哪些工作人员获取加载了哪些向量文件。

这是我到目前为止所拥有的:

RQ_worker.py

from rq import Worker, Connection
from gensim.models.keyedvectors import KeyedVectors
from my_common_methods import get_redis

W2V = KeyedVectors.load_word2vec_format('some_path/vectors.bin', binary=True)

def rq_task(some_args):
    # use some_args and W2V to do some processing, e.g.:
    with open(some_args_filename, 'w') as f_out:
        f_out.write(str(W2V['word']))

if __name__ == '__main__':
    with Connection(get_redis()):
        worker = Worker(['default'])
        worker.work()

应用程序.py

from rq import Queue, Connection
from RQ_worker import rq_task

@app.route("/someroute", methods=['POST'])
def some_route():
    # test Redis Queue
    with Connection(get_redis()):
        q = Queue()
        task = q.enqueue(rq_task, some_args)

docker-stack.yml

version: '3.7'

services:
  nginx:
    image: nginx:mainline-alpine
    deploy: ...
    configs: ...
    networks: ...

  flask:
    image: ...
    deploy: ...
    environment: ...
    networks: ...
    volumes: ...

  worker:
    image: ...
    command: python2.7 RQ_worker.py
    deploy:
      replicas: 1
    networks: ...
    volumes:
      - /some_path/data:/some_path/data

configs:
  nginx.conf:
    external: true
    name: nginx.conf

networks:
  external:
    external: true
  database:
    external: true

(我从 Docker 编辑了一堆东西，但如果相关，可以提供更多细节。)

以上一般有效，除了 RQ 工作人员似乎正在加载 W2V 从零开始每次它得到一份新工作，这都违背了整个目的。它应该将存储在 W2V 中的向量作为全局变量保存，因此不需要每次都重新加载它们。

我错过了什么吗？我应该设置不同的吗？

有人告诉我，可以使用 mmap 将向量文件加载到 RQ 工作程序所在的全局变量中，但我不确定这将如何与 KeyedVectors 一起使用。

任何建议将不胜感激!

最佳答案

如果您使用 load_word2vec_format() ，代码将始终解析(非原生到 gensim 或 Python)字向量格式，并分配新的对象/内存来存储结果。

您可以改用 gensim 的原生 .save()以更友好的格式存储以供以后使用 .load()操作。大型向量数组将存储在单独的、内存映射就绪的文件中。然后，当你 .load(..., mmap='r')这些文件，甚至多次来自同一容器中的不同线程或进程，它们将共享相同的 RAM。

(请注意，这甚至不需要任何共享全局变量。操作系统会注意到每个进程都在请求相同的只读内存映射文件，并自动共享这些 RAM 页面。唯一的重复将是冗余 Python dict s帮助每个单独的 .load() 知道共享数组的索引。)

在对模型想要重复单位范数的向量进行相似性运算时，需要考虑一些额外的问题 - 有关如何解决该问题的更多详细信息，请参阅这个较旧的答案:

How to speed up Gensim Word2vec model load time?

(请注意，syn0 和 syn0_norm 已在较新的 vectors 版本中重命名为 vectors_norm 和 gensim，但旧名称可能仍会在一段时间内与弃用警告一起使用。)

关于docker - 如何将 gensim 的 KeyedVectors 对象存储在 Redis 队列工作程序内的全局变量中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58797101/

25

4

0

文章推荐： sql - 运行多个SQL查询并测试是否通过Spark Scala

文章推荐： apache-spark - 临时查询的Impala vs Spark性能

文章推荐： hadoop - Apache sqoop增量保存的作业设置

PHP $全局 |安全查询
我的应用程序中有一个 settings.php 页面，它使用 $GLOBALS 来存储网络应用程序中使用的配置。例如，他是我使用的一个示例设置变量: $GLOBALS["new_login_page
macos - 未知的伪操作 : . 全局
我正在尝试编译我们在 OS 类上获得的简单操作系统代码。它在 Ubuntu 下运行良好，但我想在 OS X 上编译它。我得到的错误是: [compiling] arch/i386/arch/start
hadoop - 带有通配符或变量的distcp目录的设计模式(全局)
我知道distcp无法使用通配符。但是，我将需要在更改的目录上安排distcp。 (即，仅在星期一等“星期五”目录中复制数据)，还从指定目录下的所有项目中复制数据。是否有某种设计模式可用于编写此类
grails - 全局@Resource格式优先级
是否可以在config.groovy中全局定义资源格式(json，xml)的优先级，而不是在每个Resource上指定？例如，不要在@Resource Annotation的参数中指定它，例如: @R
Hibernate - 如何使关联渴望(全局)？
是否有一些简单的方法来获取大对象图的所有关联，而不必“左连接获取”所有关联？我不能只告诉 Hibernate 默认获取 eager 关联吗？最佳答案即使有可能有一个全局 lazy=false(谷歌
Java - 全局、可重用的加载对话框
我正在尝试实现一个全局加载对话框...我想调用一些静态函数来显示对话框和一些静态函数来关闭它。与此同时，我正在主线程或子线程中做一些工作...... 我尝试了以下操作，但对话框没有更新...最后一次，
styling - 哪个字母占用了最多的新兴市场(全局)？
当我偶然发现 this question 时，我正在阅读更改占位符文本。无论如何，我回去学习了占位符。一个 SO 的回答大致如下: Be careful when designing your pl
javascript - 匹配不遵循字母表的数字并将它们放在捕获组中(全局)
例如，如果我有这样的文字: "hello800 more text 1234 and 567" 它应该匹配 1234 和 567，而不是 800(因为它遵循 hello 的 o，这不是一个数字)。这
android - 短信电话号码验证的替代方案 - 全局
我一直在尝试寻找一种无需使用 SMS 验证系统即可验证电话号码(Android 和 iPhone)的方法。原因纯粹是围绕成本。我想要一个免费的解决方案。我可以安全地假设 Android 操作系统会向
c++ - 为所有类提供运行时参数的规范方法——全局？
解决此类问题的规范 C++ 设计模式是什么？我有一些共享多个类的多线程服务器。我需要为大多数类提供各种运行时参数(例如服务器名称、日志记录级别)。在下面的伪 C++ 代码中，我使用了一个日志记录类
Python 全局/局部变量赋值问题
这个问题在这里已经有了答案: Using global variables in a function (25 个答案) 关闭 9 年前。我是 python 的新手，所以可能有一个简单的答案，但我
c++ - (全局)静态变量会在程序结束时被销毁吗？
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Does C++ call destructors for global and class static
ios - NSMutableArray 全局
我正在尝试使用 Objective-C 中的 ArrayList 的等价物。我知道我必须使用 NSMutableArray。我想要一个字符串列表 (NSString)。关键是我的列表应该可以从我类(c
Android 全局/通用函数
今天刚开始学习 Android 开发，我找不到任何关于如何定义 Helper 类或将全局加载的函数集合的信息，我会能够在我创建的任何 Activity 中使用它们。我的计划是创建(至少目前)2 个几
Python 全局/局部变量
为什么这段代码有效: var = 0 def func(num): print num var = 1 if num != 0: func(num-1) fun
php - 错误还是黑客？ $全局
$GLOBALS["items"] = array('one', 'two', 'three', 'four', 'five' ,'six', 'seven'); $alter = &$GLOBALS
Python:日志记录模块 - 全局
我想知道如何实现一个可以在任何地方使用您自己的设置的全局记录器: 我目前有一个自定义记录器类: class customLogger(logging.Logger): ... 该类位于一个单独的
jestjs - 全局 beforeAll in Jest？
我需要使用 React 测试库和 Jest 在我的测试中模拟不同的窗口大小。目前我必须在每个测试文件中包含这个beforeAll: import matchMediaPolyfill from 'm
oop - 静态成员不会使类本身成为(全局)对象吗？
每次我遇到单例模式或任何静态类(即(几乎)只有静态成员的类)的实现时，我想知道这是否实际上不是一种黑客行为，因此只是为了设计而严重滥用类和实例的原则单个对象，而不是设计类和创建单个实例。对我来说，看起
regex - 全局 g 正则表达式标志的奇怪行为
这个问题在这里已经有了答案: Help understanding global flag in perl (2 个回答) 7年前关闭。 my $test = "There was once an\n

首页

博学

6Ren·AI

商城

docker - 如何将 gensim 的 KeyedVectors 对象存储在 Redis 队列工作程序内的全局变量中