python - 在多个工作人员的支持下，在 gensim 中批量训练 word2vec-6ren

python - 在多个工作人员的支持下，在 gensim 中批量训练 word2vec

转载作者：行者123 更新时间：2023-12-01 06:55:37

26

4

上下文

关于如何使用 gensim 和流数据训练 Word2Vec 存在几个问题。无论如何，这些问题并没有解决流不能使用多个工作线程的问题，因为没有数组可以在线程之间分割。

因此我想创建一个为 gensim 提供此类功能的生成器。我的结果如下:

from gensim.models import Word2Vec as w2v

#The data is stored in a python-list and unsplitted.
#It's too much data to store it splitted, so I have to do the split while streaming.
data = ['this is document one', 'this is document two', ...]

#Now the generator-class
import threading

class dataGenerator:
    """
    Generator for batch-tokenization.
    """

    def __init__(self, data: list, batch_size:int = 40):
        """Initialize generator and pass data."""

        self.data = data
        self.batch_size = batch_size
        self.lock = threading.Lock()


    def __len__(self):
        """Get total number of batches."""
        return int(np.ceil(len(self.data) / float(self.batch_size)))


    def __iter__(self) -> list([]):
        """
        Iterator-wrapper for generator-functionality (since generators cannot be used directly).
        Allows for data-streaming.
        """
        for idx in range(len(self)):
            yield self[idx]


    def __getitem__(self, idx):

        #Make multithreading thread-safe
        with self.lock:

            # Returns current batch by slicing data.
            return [arr.split(" ") for arr in self.data[idx * self.batch_size : (idx + 1) * self.batch_size]]


#And now do the training
model = w2v(
             sentences=dataGenerator(data),
             size=300,
             window=5,
             min_count=1,
             workers=4
            )

这会导致错误

TypeError: unhashable type: 'list'

由于如果我只生成一个拆分文档，dataGenerator(data) 就可以工作，因此我假设 gensims word2vec 将生成器包装在一个额外的列表中。在这种情况下，__iter__ 看起来像:

def __iter__(self) -> list:
    """
    Iterator-wrapper for generator-functionality (since generators cannot be used directly.
    Allows for data-streaming.
    """
    for text in self.data:
        yield text.split(" ")

因此，我的批处理也会被包装，导致类似于 [[['this', '...'], ['this', '...']], [[... ], [...]]] (=> 列表的列表的列表)，gensim 无法处理。

我的问题:

我可以“流”传递批处理以使用多个工作人员吗？我怎样才能相应地更改我的代码？

最佳答案

看来我太不耐烦了。我运行了上面写的流函数，它只处理一个文档而不是一批:

def __iter__(self) -> list:
    """
    Iterator-wrapper for generator-functionality (since generators cannot be used directly.
    Allows for data-streaming.
    """
    for text in self.data:
        yield text.split(" ")

启动w2v功能后，大约需要十分钟时间，直到所有核心都正常工作。

构建词汇表似乎不支持多个核心，因此仅使用一个核心来完成此任务。据推测，由于语料库的大小，花了这么长时间。 gensim 构建词汇后，所有核心都用于训练。

因此，如果您也遇到这个问题，也许一些耐心会有所帮助:)

关于python - 在多个工作人员的支持下，在 gensim 中批量训练 word2vec，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58822292/

26

4

0

文章推荐： php - Jquery 列表框限制要选择的特定选项

文章推荐： java - 生成一个包含 n 个 1 的随机 BitSet

文章推荐： python - 使用 Python 操作(非常)长的数据文件

文章推荐： VBA 字典正在复制键

rust - 有没有办法将 `Vec>` 转换为 `Vec` ，将所有 `Vec` 组合成一个 `Vec` ？
假设我有一个组织 ID 向量 let orgs = vec![1, 3, 14, 12]; 然后我调用 .iter()在 each 上获取每个组织的事件，其中函数 get_events_for()返回
rust - 为什么 `get` 对 std::vec::Vec 和 &std::vec::Vec 都有效？
这个问题已经有答案了: What are Rust's exact auto-dereferencing rules? (4 个回答) 已关闭 3 年前。我很困惑为什么这个函数 get适用于 Vec
Rust:Vec> 到 Vec
let a = vec![ vec![1, 2], vec![3, 4], vec![5, 6] ]; 怎么才能聚成一个Vec包含在所有 Vec 中的所有值s 在 a ? 最佳答案您可以使用 fla
vector - 将Map ，Vec >展平为Vec ，然后将其返回到Map ，Vec >
我在HashMap, Vec>中有数据，我想将该数据作为字节缓冲区(单个Vec)写入文件，然后从文件中读取回去并重建HashMap结构。是否有建立像这样的平坦化和恢复 map 的算法？我可以将元数据
rust - 如何将 Vec> 的元素加在一起成为 Vec？
我正在寻找一种“使用rust ”的方式来将 Vec 累积到 Vec 中，以便将每个内部 Vec 的第一个元素加在一起，将每个 Vec 的每个第二个元素加在一起，等等......，并将结果收集到 Vec
rust - 如何将 Vec> 的元素加在一起成为 Vec？
我正在寻找一种“使用rust ”的方式来将 Vec 累积到 Vec 中，以便将每个内部 Vec 的第一个元素加在一起，将每个 Vec 的每个第二个元素加在一起，等等......，并将结果收集到 Vec
rust - 错误不匹配的类型 : expected 'collections::vec::Vec' , 找到 '&collections::vec::Vec'
我正在尝试使用 selection_sort 创建一个已排序的向量，同时保留原始未排序的向量: fn main() { let vector_1: Vec = vec![15, 23, 4,
rust - 为什么 Vec::iter_mut 没有出现在 std::vec::Vec 的文档索引中？
在 https://doc.rust-lang.org/std/vec/struct.Vec.html#method.iter , 我只能在页面左侧的索引侧边栏中找到iter。但是，找不到 iter_
collections - 从 Vec> 创建一个 Vec>
我正在尝试从 Vec> 创建一个集合向量 ( Vec> ) .这是我目前的进展: use std::collections::BTreeSet; fn main() { // The data
rust - 为什么初始化向量的向量 (Vec>) 需要 T 而不是 Vec？
我错过了向量向量初始化的一些东西。在第一种方法中，我尝试了这段代码: let mut landFirst: Vec> = Vec::with_capacity(width); for v in lan
rust - 如何在未知大小的 Vec> 上创建一个迭代器，它等效于迭代器在内部 Vec 上的笛卡尔积？
我想设计一个类似于示例 here 的函数除了我的情况，iproduct 的参数数量在编译时是未知的。正如 here 所解释的那样，这在 python 中很容易完成。 . 我已经尝试使用 itertoo
arrays - 为什么在调用 Vec::set_len 之前调用 Vec::resize 会导致 Vec 有数据？
我有一个我不明白的问题: fn cipher_with(key: &[u8], data: &[u8]) -> Vec { let data_len = 16; let mut dat
rust - 预期的向量但找到了结构集合::vec::Vec
我刚开始学习 Rust，我偶然发现了这个愚蠢的问题: error: mismatched types: expected `&[u8]` but found `&collections::vec::V
filter - 如何过滤 Vec 中的值并仍然返回 Vec？
这个问题在这里已经有了答案: How to filter a vector of custom structs? (1 个回答) 关闭 4 年前。我有一个接受 &Vec 的函数(其中 Word 是
rust - 如何将结构的 Vec 强制转换为特征对象的 Vec？
试图创建一个 HashMap 的数据库结构向量。每个Vec包含 Box . use std::collections::HashMap; trait Model { fn id(&self)
rust - 如何高效地逐行遍历 `Vec>`？
我正在编写一个使用 Vec> 的库类型以按列优先顺序存储数据(每个内部 Vec 代表一列)。用户可以创建 Vec>具有任何行和列长度，但所有列都被限制为相同的长度。有时我需要高效地遍历 Vec>按行
c++ - in vec 和 out vec 是什么意思？
在 GLSL 中我不明白什么是“in”和“out”变量，这是什么意思？这是我从教程中复制的代码示例。 // Shader sources const GLchar* vertexSource =
rust - Vec> 按第一个元素升序排序，当第一个元素相等时按第二个元素降序排序
例如 [[5,6][2,3][2,5][2,9][1,6]]先按第一个元素升序排序，当一个元素相等时，按第二个元素降序排序，得到[1,6],[2,9],[2,5],[2,3] ],[5,6] 最佳答案
iterator - Vec >的可变迭代器
我正在尝试为类型为Vec>的向量创建可变的迭代器迭代器代码: pub struct IterMut { iter: &'a mut Vec>, ix: usize, inne
rust - 预期错误的原因()，在Rust中找到struct `std::vec::Vec`？
我是 rust 编程的新手。我想用递归实现合并排序。这是我的代码: fn merge(a: &mut Vec, b: &mut Vec) -> Vec { let mut temp: Vec

首页

博学

6Ren·AI

商城

python - 在多个工作人员的支持下，在 gensim 中批量训练 word2vec