gpt4 book ai didi

mahout - 聚类——稀疏向量和密集向量

转载 作者:行者123 更新时间:2023-12-04 10:39:39 45 4
gpt4 key购买 nike

对于聚类,Mahout 输入需要采用向量形式。有两种类型的向量实现。一种是稀疏向量,另一种是密集向量。

两者有什么区别?

Sparse 和 Dense 的使用场景?

最佳答案

从概念上讲,稀疏向量中的大多数值都为零,而在稠密向量中则不是。稠密矩阵和稀疏矩阵相同。术语稀疏和密集通常描述这些属性,不仅在 Mahout 中。

在 Mahout 中 DenseVector假设没有太多的零条目,因此“将向量实现为 double 数组”( org.apache.mahout.math.DenseVector )。相比之下,AbstractVector 的稀疏向量实现,例如RandomAccessSparseVectorSequentialAccessSparseVector ,使用完全不存储零值的不同数据结构。

取哪一个取决于您要存储在向量中的数据。如果您期望大部分为零值,稀疏向量实现将更节省空间,但是如果您将它用于只有几个零值的数据,则会引入大量数据结构开销,这可能会导致性能下降。

密集向量与稀疏向量的选择不会影响您对向量的计算结果,只会影响内存使用和计算速度。

关于mahout - 聚类——稀疏向量和密集向量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17910290/

45 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com