gpt4 book ai didi

apache-spark - 将带有分类数据的 csv 转换为 libsvm

转载 作者:行者123 更新时间:2023-12-04 04:14:08 26 4
gpt4 key购买 nike

我正在使用 spark MLlib 构建机器学习模型。如果数据中有分类变量,我需要提供 libsvm 格式文件作为输入。

我尝试将 csv 文件转换为 libsvm 使用1. Convert.c 按照 libsvm 站点中的建议2. phraug github

中的 Csvtolibsvm.py

但这两个脚本似乎都没有转换分类数据。我还安装了 weka 并尝试保存为 libsvm 格式。但是在 weka explorer 中找不到该选项。

请建议将带有分类数据的 csv 转换为 libsvm 格式的任何其他方法,或者如果我在这里遗漏任何内容,请告诉我。

提前感谢您的帮助。

最佳答案

我猜您想训练 SVM。它需要一个 rdd [LabeledPoint] 的输入。

https://spark.apache.org/docs/1.4.1/api/scala/#org.apache.spark.mllib.classification.SVMWithSGD

我建议您将分类列与此处的第二个答案类似:

How to transform a categorical variable in Spark into a set of columns coded as {0,1}?

LogisticRegression 案例与 SVM 案例非常相似。

关于apache-spark - 将带有分类数据的 csv 转换为 libsvm,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31445693/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com