gpt4 book ai didi

hadoop - 将键值数据集表示为 Mahout 向量

转载 作者:可可西里 更新时间:2023-11-01 14:59:29 27 4
gpt4 key购买 nike

我有一个 CSV 格式的数据集,它是一组键值对,数据集很大,值是整数和短字符串的混合(即不是冗长的文本,而是关键词),我想使用 Mahout 的聚类算法对其进行处理。

问题在于将此 CSV 转换为 Mahout 可以使用的向量。我一直在阅读“Mahout In Action”,似乎有两个向量化选项,使用 Mahout 的 DenseVector、RandomAccessSparseVector 和 SequentialAccessSparseVector 实现的数值,或使用向量空间模型来向量化文本文档。

我要对其进行矢量化的数据并不是真正的文本文档,但由于它是一个包含许多不同键和值的庞大数据集,因此很难将其映射为数值。将此类数据向量化以在 Mahout 中使用的最佳方法是什么?

如有任何指点,我们将不胜感激。

谢谢

最佳答案

您很可能需要一个 RandomAccessSparseVector。

  • 不是 DenseVector,因为不会表示大多数可能的键。你有整数和字符串的混合作为键,因此它是一个很大的键空间。
  • 不是 SequentialAccessSparseVector,因为似乎没有您的键空间中的自然排序会产生特定的顺序更有效地在 Mahout 中运行您的算法。

您可以轻松地尝试不同的向量表示法,看看哪种表示法效果最好。

关于hadoop - 将键值数据集表示为 Mahout 向量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14229655/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com