gensim - 使用多核 CPU 用 gensim 训练 Doc2vec 效率不高-6ren

gensim - 使用多核 CPU 用 gensim 训练 Doc2vec 效率不高

转载作者：行者123 更新时间：2023-12-03 14:24:41

39

4

我正在使用 24 核虚拟 CPU 和 100G 内存来训练 Doc2Vec 与 Gensim，但无论修改核数，CPU 的使用率始终在 200% 左右。

top

htop

上面两张图显示了cpu使用率，这说明cpu没有被有效使用。

cores = multiprocessing.cpu_count()
assert gensim.models.doc2vec.FAST_VERSION > -1, "This will be painfully slow otherwise"

simple_models = [
    # PV-DBOW plain
    Doc2Vec(dm=0, vector_size=100, negative=5, hs=0, min_count=2, sample=0, 
            epochs=20, workers=cores),
    # PV-DM w/ default averaging; a higher starting alpha may improve CBOW/PV-DM modes
    Doc2Vec(dm=1, vector_size=100, window=10, negative=5, hs=0, min_count=2, sample=0, 
            epochs=20, workers=cores, alpha=0.05, comment='alpha=0.05'),
    # PV-DM w/ concatenation - big, slow, experimental mode
    # window=5 (both sides) approximates paper's apparent 10-word total window size
    Doc2Vec(dm=1, dm_concat=1, vector_size=100, window=5, negative=5, hs=0, min_count=2, sample=0, 
            epochs=20, workers=cores),
]

for model in simple_models:
    model.build_vocab(all_x_w2v)
    print("%s vocabulary scanned & state initialized" % model)

models_by_name = OrderedDict((str(model), model) for model in simple_models)

编辑:
我尝试使用参数 corpus_file 而不是文档，并解决了上述问题。但是，我需要调整代码并将 all_x_w2v 转换为文件，而 all_x_w2v 并没有直接这样做。

最佳答案

Python 全局解释器锁(“GIL”)和其他线程间瓶颈可防止其代码使用经典 gensim 使所有 CPU 内核饱和 Word2Vec/Doc2Vec/etc 灵活的语料库迭代器——您可以在其中提供任何可重复迭代的文本序列。

您可以通过以下步骤稍微提高吞吐量:

negative 的较大值, size , & window

避免迭代器中的任何复杂步骤(如标记化)——理想情况下，它只会从简单的磁盘格式

流式传输

尝试不同的 worker计数 - 最佳计数将根据您的其他参数和系统详细信息而有所不同，但通常在 3-12 范围内(无论您拥有多少个内核)

此外，最新版本的 gensim提供另一种语料库规范方法: corpus_file指向已用空格分隔的、每行文本文件的指针。如果您以这种方式提供文本，多个线程将分别读取优化代码中的原始文件 - 并且可以实现更高的 CPU 利用率。但是，在此模式下，您无法指定自己的文档 tags ，或多个 tag每个文件。 (这些文档将根据它们在文件中的行号获得唯一的 ID。)

请参阅 Doc2Vec 的文档，及其参数 corpus_file :

https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec

关于gensim - 使用多核 CPU 用 gensim 训练 Doc2vec 效率不高，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57532018/

39

4

0

文章推荐： android - CardView 圆角得到意想不到的白色

文章推荐： python - ModuleNotFoundError : no module named efficientnet. tfkeras

文章推荐： pytorch - 他们怎么知道mean和std，transforms.Normalize的输入值

文章推荐： react-native - 单个组件中的多个用户查询

twisted - 多核/多处理器上的TwistedWeb
人们在运行TwistedWeb服务器时使用哪些技术来利用多个处理器/内核？有推荐的方法吗？我基于twisted.web的Web服务在Amazon EC2实例上运行，该实例通常具有多个CPU核心(8、
r - 多核::应用？
multicore 库中是否有类似 sapply 的东西？还是我必须 unlist(mclapply(..)) 才能实现这一点？如果它不存在:推理是什么？提前致谢，如果这是一个愚蠢的问题，我们深表
python - 多核 ZeroMQ？
ZeroMQ 用于接收输入参数.. def server(): rep = context.socket(zmq.REP) rep.bind('tcp://*:{}'.format(P
algorithm - 多核 - 如何合并在每个核心上找到的本地数据组？
我有一大组标量值分布在 3D 网格上(每个顶点一个值。) 我的目标是展示: 网格中值大于阈值的所有点。并将连接的点分组(以简化显示。) 所以我的基本解决方案是: 找到通过阈值测试的点对于每个没有被
聊聊CPU的发展历程之单核、多核、超线程
作者：小牛呼噜噜 | https://xiaoniuhululu.com 计算机内功、JAVA底层、面试、职业成长相关资料等更多精彩文章在公众号「小牛呼噜噜」。大家好，我是呼噜噜，
multithreading - 多核 J -- 并行化
有没有办法让 J 使用多个核心？我认为 APL/J 的部分好处是语言结构很适合并行解决方案。查看我的 CPU 使用率(我在 OSX 上)，显然只有一个处理器在使用。我有一个很重的函数 f 作用在一
multiprocessing - 多核 CPU 中断
多核处理器如何处理中断。我知道单核处理器如何处理中断。我也知道不同类型的中断。我想知道多核处理器如何处理硬件、程序、cpu时序和输入/输出中断最佳答案这应该被视为 other answer
multicore - 多核 llvm 的垃圾收集器？
很长一段时间以来，我一直将 LLVM 视为我目前正在实现的语言的新后端。它似乎具有良好的性能，相当高级的生成 API，足够的低级支持来优化奇特的优化。此外，虽然我自己没有检查过，但苹果似乎已经成功地演
operating-system - 多核/多CPU机器中的中断如何工作？
我最近开始研究低级OS编程。我(非常缓慢)目前正在研究两本较旧的书，即XINU和Build Your Own 32 Bit OS，以及上一个问题How to get started in operat
multithreading - 多核 + 超线程 - 线程是如何分布的？
我正在阅读对新英特尔凌动 330 的评论，他们指出任务管理器显示 4 个内核 - 两个物理内核，另外还有两个由超线程模拟。假设您有一个包含两个线程的程序。还假设这些是在 PC 上执行任何工作的唯一线
c++ - 多核 C++ 线程
我不知道如何在 C++ 中进行线程化，我不仅不想知道，而且有没有一种方法可以将线程强制到不同的核心上？另外，我如何才能知道用户拥有多少个内核？最佳答案将线程绑定(bind)到任意 CPU 称为设置
linux - 多核 Linux 内核中的上下文切换
如果需要在多核处理器机器的多个内核上并行执行，Linux 内核是否会同时执行多个上下文切换？有引用吗？最佳答案是的，你是对的。在 SMP 系统上，多个上下文切换同时发生。每个核心都可以独立进行上下
Linux:多核 CPU 中的进程和线程
与进程相比，线程更不可能从多核处理器中获益，这是真的吗？换句话说，内核会决定在单核而不是多核上执行线程吗？我说的是属于同一进程的线程。最佳答案我不知道(各种)Linux 调度程序如何处理这个问题
Solr 单索引 vs Solr 多核
我需要一些帮助来决定在单个 Solr 实例中创建单个索引还是在单个 Solr 实例中创建多个核心，每个核心为一个索引提供服务。我的理解是，solr 中的单个索引通常用于索引一种类型的文档。当您有不同
performance - 多核/多处理器是否有助于 Web 服务器的性能？
NGINX 或 Apache 是否受益于具有以下任一项的服务器: 多核，或者多个处理器？如果是，为什么？最佳答案使用多个 CPU/CPU 内核使服务器应用程序有机会并行处理多个客户端连接(和请
x86 - 多核/NUMA 上的 CPUID
我正在为我的爱好操作系统开发 CPU 检测和一般环境检测代码。是否存在需要多次调用 CPUID 的情况？也就是说如果系统有多个核心，操作系统是否需要在每个核心上调用CPUID？ NUMA 也是如此。
performance - 多核 Intel CPU 中的高速缓存是如何共享的？
我有一些关于多核 CPU 或多处理器系统中使用的高速缓存存储器的问题。 (虽然与编程没有直接关系，但当一个人为多核处理器/多处理器系统编写软件时，它会产生很多影响，因此在此询问!) 在多处理器系统或多
c++ - 多核，使从函数内部调用的函数在第二个核上运行。直接秀，opencv
所以，我一直在使用 opencv 开发实时跟踪系统。几天前，我不得不开始使用 directshow(这对我来说是全新的)，因为我需要网络摄像头的更高分辨率。分辨率越高，CPU 使用率就越高。仅使用没有
java - 多核/并发编程和 .NET/Java
我经常听说其他语言被提升为更适合多核/并发编程，例如Clojure、Scala、Erlang 等，但我有点困惑为什么我需要担心多核问题，Java/.NET VM 不应该自动处理吗？如果没有，背后的原因
multithreading - 多核 CPU 上能否真正同时执行 2 条指令
假设 x86 多核 PC 架构... 假设有 2 个内核(能够执行 2 个单独的指令流)，并且 CPU 和 RAM 之间的接口(interface)是内存总线。调度在 2 个不同内核上的 2 条指令

首页

博学

6Ren·AI

商城

gensim - 使用多核 CPU 用 gensim 训练 Doc2vec 效率不高