gpt4 book ai didi

scala - 在spark MLlib中,如何在spark scala中将字符串转换为整数?

转载 作者:行者123 更新时间:2023-12-02 20:46:58 24 4
gpt4 key购买 nike

据我所知,MLlib 仅支持整数。
然后我想在scala中将字符串转换为整数。例如,我在txtfile中有很多reviewerID、productID。

reviewerID    productID
03905X0912 ZXASQWZXAS
0325935ODD PDLFMBKGMS
...

最佳答案

StringIndexer 是解决方案。它将通过估计器和转换器融入机器学习管道中。本质上,一旦您设置了输入列,它就会计算每个类别的频率,并从 0 开始编号。如果需要,您可以在管道末尾添加 IndexToString 以替换为原始字符串。

您可以查看机器学习文档“估计、转换和选择特征”以了解更多详细信息。

在你的情况下,它会像:

import org.apache.spark.ml.feature.StringIndexer 

val indexer = new StringIndexer().setInputCol("productID").setOutputCol("productIndex")
val indexed = indexer.fit(df).transform(df)
indexed.show()

关于scala - 在spark MLlib中,如何在spark scala中将字符串转换为整数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43964097/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com