gpt4 book ai didi

python - 无法访问 PySpark 中的 RowMatrix 方法 : columnSimilarities(), computeColumnSummaryStatistics()

转载 作者:可可西里 更新时间:2023-11-01 14:22:50 32 4
gpt4 key购买 nike

我正在尝试使用函数 columnSimilarities()、computeColumnSummaryStatistics()

  • 特别是这篇文章中提到的 columnSimilarities() 函数:

https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html

我正在使用来自 mlib 的稀疏向量列表。

sparse_vectors = []

for cust, group in df.groupby(0):

i_v = zip(group[1].values, group[2].values)
i_v = sorted(i_v)
indices = [x[0] for x in i_v]
values = [x[1] for x in i_v]
sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))

rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)

我得到错误:

AttributeError: 'RowMatrix' object has no attribute 'computeColumnSummaryStatistics'

AttributeError: 'RowMatrix' object has no attribute 'columnSimilarities'

每次我运行函数时。

这是 PySpark 的问题,而不是 Scala Spark 的问题吗?我也无法通过谷歌搜索找到 RowMatrix 函数的页面。

谢谢

最佳答案

您无法访问这些方法,因为目前(Spark 1.6)这些方法尚未在 PySpark 中实现。

IndexedRowMatrix.columnSimilarities(参见 SPARK-12041 )在当前的 master 中可用,但要使用它,您必须从源代码构建 Spark。

关于python - 无法访问 PySpark 中的 RowMatrix 方法 : columnSimilarities(), computeColumnSummaryStatistics(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36320417/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com