gpt4 book ai didi

python - 如何从 1,000,000 行和 20,000 个特征中获取最近邻矩阵?

转载 作者:太空宇宙 更新时间:2023-11-03 21:25:10 24 4
gpt4 key购买 nike

我遇到了严重的麻烦。我想计算一千万条记录的关系,但是由于Spark内存不足而导致处理停止。通过 TF-Hashing 创建 1000 万个文档,创建 20,000 维特征。首先,我尝试了“-近似相似度连接”,但计算没有收敛。接下来,我尝试尝试scikit-learn的KNN,但是当我将所有数据带入Driver时,内存溢出了。难道就没有其他办法了吗?

最佳答案

最近邻似乎不是 Spark MLLib 的一部分。我想到的选项是找到分布式 Spark 实现或找到 Tensorflow 实现

在 Databricks 上吗?最新版本支持分布式 Tensorflow。我在单节点 Databricks Tensorflow 集群上运行了比您更大的卷。

快速搜索发现了这些* tensorflow nearest neighbor* spark nearest neighbor

请注意,我自己还没有尝试过这些。

关于python - 如何从 1,000,000 行和 20,000 个特征中获取最近邻矩阵?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53896510/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com