gpt4 book ai didi

apache-spark - Apache spark Word2Vec 中的迭代次数和分区数如何相关?

转载 作者:行者123 更新时间:2023-12-03 22:40:50 25 4
gpt4 key购买 nike

根据 mllib.feature.Word2Vec - spark 1.3.1文档 [1]:

def setNumIterations(numIterations: Int): Word2Vec.this.type

Sets number of iterations (default: 1), which should be smaller than or equal to number of partitions.


def setNumPartitions(numPartitions: Int): Word2Vec.this.type

Sets number of partitions (default: 1). Use a small number for accuracy.



但是在这个 Pull Request [2]:

To make our implementation more scalable, we train each partition separately and merge the model of each partition after each iteration. To make the model more accurate, multiple iterations may be needed.



问题:
  • 参数 numIterations 和 numPartitions 如何影响算法的内部工作?
  • 考虑到以下规则,在设置分区数和迭代次数之间是否存在权衡?
  • 更准确 -> 更多迭代 a/c 到 [2]
  • 更多迭代 -> 更多分区 a/c 到 [1]
  • 更多的分区 -> 更少的准确度
  • 最佳答案

    当增加分区数量时,您会减少每个分区训练的数据量,从而使每个训练步骤(词向量调整)更加“嘈杂”且不太确定。 Spark 的实现通过在增加分区数量时降低学习率来对此做出响应,因为有更多进程更新向量权重。

    关于apache-spark - Apache spark Word2Vec 中的迭代次数和分区数如何相关?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37582929/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com