- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我的推荐输入数据如下:
[(u'97990079', u'18_34', 2),
(u'585853655', u'11_8', 1),
(u'1398696913', u'6_20', 1),
(u'612168869', u'7_16', 1),
(u'2272846159', u'11_17', 2)]
格式为(user_id, item_id, score)
。
如果我没理解错的话,spark中的ALS在训练前一定要将user_id
,item_id
转化为整数?如果是这样,我现在能想到的唯一解决方案是使用字典并将每个 user_id
和 item_id
映射到像
dictionary for item_id : {'18_34': 1, '18_35':2, ...}
dictionary for user_id : {'97990079':1, '585853655':2, ...}
但我想知道是否有其他优雅的方式来做到这一点?谢谢!
最佳答案
处理此问题的一种方法是使用 ML 转换器。首先让我们将您的数据转换为 DataFrame:
ratings_df = sqlContext.createDataFrame([
(u'97990079', u'18_34', 2), (u'585853655', u'11_8', 1),
(u'1398696913', u'6_20', 1), (u'612168869', u'7_16', 1),
(u'2272846159', u'11_17', 2)],
("user_id", "item_id_str", "rating"))
接下来我们需要一个StringIndexer
from pyspark.ml.feature import StringIndexer
indexer = StringIndexer(inputCol="item_id_str", outputCol="item_id")
最后让我们使用索引器转换 DataFrame:
from pyspark.sql.functions import col
transformed = (indexer
.fit(ratings_df)
.transform(ratings_df)
.withColumn("user_id", col("user_id").cast("integer"))
.select("user_id", "item_id", "rating"))
并转换为RDD[Rating]
:
from pyspark.mllib.recommendation import Rating
ratings_rdd = transformed.map(lambda r: Rating(r.user_id, r.item_id, r.rating))
在较新版本的 Spark 中,您可以跳过转换,直接使用 ml.recommendation.ALS
:
from pyspark.ml.recommendation import ALS
als = (ALS(userCol="user_id", itemCol="item_id", ratingCol="rating")
.fit(transformed))
关于python - 在 pyspark 中转换 ALS 的输入数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33723099/
我有一些未知的 C++ 代码是在发布版本中编译的,因此对其进行了优化。我正在努力解决的问题是: xor al, al add esp, 8 cmp byte ptr [ebp+
print_string: lodsb ; grab a byte from SI cmp al, 0 ;or al, al ; logical or AL by i
如何用 C 语言编写 test al,al 代码? 我试过 if((n & 0xFF) & 0){} 但这不正确。 谢谢。 最佳答案 我猜你接下来要检查零标志,即 jz 或类似的。在那种情况下你会想要
我在我的 Centos5 机器上运行了这个: ls -al & ; ls -al 我期待它在后台运行 ls -al,同时在前台运行 ls -al,并演示终端的输出是如何被破坏的通过这样做。 但是,我得
ArrayList al = new ArrayList(); 和有什么区别? ArrayList al = new ArrayList(0)? 最佳答案 ArrayList(0) 具有指定初始容量的
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: List versus ArrayList 之间的区别 ArrayList al = new ArrayLi
这是我的代码: section .data digit db 0,10 section .text global _start _start: call _printRAXD
我已经在 XCode 中创建了一个项目并添加了 OpenAL 框架。当我尝试包含 AL/al.h 时,编译器仍然找不到它。 我在哪里添加 OpenAL 的包含目录? 编辑:抱歉我忘了补充:我正在使用
问题陈述:需要从ymm0寄存器中提取位于其值在寄存器AL中的位置的字节。 我的方法:(相当难看): ; Set XMM1 to be a "shift one byte by righ
在调试使用信号量进行跨进程同步的应用程序时,我偶然发现了使用PowerShell代替“其他”进程的想法。在PowerShell中执行以下操作可以正常工作: // In C# application:
我正在尝试为用户显示电影推荐列表。模型已经过训练,但在尝试显示预测时出现错误。 als = ALS(maxIter=5, regParam=0.01, userCol="userID", itemCo
我们在 Azure Spark 上使用 ALS 来构建我们的推荐系统。 由于计算能力的原因,我们无法为每个用户输出不同的推荐列表。因此,我们将用户分为聚类,并使用 ALS 为每个单独的聚类质心输出推荐
我正在阅读一个反汇编的 win32 c++ 程序,我看到了很多: AND AL,0xFF 这是完全没有意义的还是为什么编译器会生成这些? 这是一个更长的例子: movsx eax, byte pt
我对用于推荐引擎的 ALS 有疑问? ALS 是确定性的吗?比如,如果你输入相同的数据和相同的参数,你是否应该总是得到相同的输出(或非常相似的结果)? 最佳答案 简短的回答应该是:NO。矩阵分解算法的
我正在使用 gtk 和 xlib(xtst) 创建一个程序来将假按键发送到应用程序,我创建了这个循环来将按键发送到事件窗口: Display *dis; dis = XOpenDisp
我正在尝试使用带有隐式反馈的 Spark MLib ALS 进行协作过滤。输入数据只有两个字段userId和productId。我没有产品评分,只有用户购买过哪些产品的信息,仅此而已。因此,为了训练
我正在做一个处理 x86 汇编语言的二进制炸弹实验室作业(我相信是 at&t)。我正在运行我的代码并走到最后,但最后我将我的 306 值与这个 %al 寄存器进行比较,我不知道如何获得它的值,因为我尝
有人可以指导我在linux中ls -ali输出的每一列描述什么吗? 最佳答案 ls -ali 类似这样的事情 67403780 -rw-------. 1 root root 1114 12月
我找到了一些声称使用 openAL 列出所有音频输出设备的示例,但是我只能让它们列出当前在 OSX(Yosemite、Maverick)上选择的设备。我使用的是 mac,有默认声卡(内置输出)以及 a
我想根据日期对“ls -al”命令的输出进行排序。我可以使用命令轻松地为一列执行此操作: $ ls -al | sort -k6 -M -r 但是如何同时对第 6 列和第 7 列执行此操作?命令: $
我是一名优秀的程序员,十分优秀!