gpt4 book ai didi

apache-spark - Spark 线性回归特征哈希

转载 作者:行者123 更新时间:2023-11-30 09:21:32 27 4
gpt4 key购买 nike

我正在尝试使用 Spark 的 LinearRegressionWithSGD 来按国家/地区和设备预测商品的价格。看完feature extraction section对于 Spark MLLib,我有点不清楚应该如何散列这些功能。一个示例记录是:

{"price": 3.37, "site_id" 12, "brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"}

我尝试了几种哈希技术(例如 MurmurHash),但它们似乎都得到了垃圾权重(例如 NAN、PositiveInfinity 等)或趋于 10^200+ 的权重。有没有人在 Spark MLLib 中成功地对标记功能进行哈希处理?

最佳答案

对国家/地区执行哈希可能会混淆不相关的观察结果。您也许可以在设备上使用simhash,并在国家/地区上使用精确比较(不区分大小写)。跨两个变量的散列方法可能适用于聚类,但不太可能适用于回归。

为每个国家/地区创建单独的曲线,您可以尝试将simhash应用到移动设备。

关于apache-spark - Spark 线性回归特征哈希,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35712709/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com