python - 在 pyspark 中转换 ALS 的输入数据-6ren

python - 在 pyspark 中转换 ALS 的输入数据

转载作者：太空狗更新时间：2023-10-30 01:00:39

26

4

我的推荐输入数据如下:

[(u'97990079', u'18_34', 2),
 (u'585853655', u'11_8', 1),
 (u'1398696913', u'6_20', 1),
 (u'612168869', u'7_16', 1),
 (u'2272846159', u'11_17', 2)]

格式为(user_id, item_id, score)。

如果我没理解错的话，spark中的ALS在训练前一定要将user_id,item_id转化为整数？如果是这样，我现在能想到的唯一解决方案是使用字典并将每个 user_id 和 item_id 映射到像

这样的整数

dictionary for item_id : {'18_34': 1, '18_35':2, ...}
dictionary for user_id : {'97990079':1, '585853655':2, ...}

但我想知道是否有其他优雅的方式来做到这一点？谢谢!

最佳答案

处理此问题的一种方法是使用 ML 转换器。首先让我们将您的数据转换为 DataFrame:

ratings_df = sqlContext.createDataFrame([
    (u'97990079', u'18_34', 2), (u'585853655', u'11_8', 1),
    (u'1398696913', u'6_20', 1), (u'612168869', u'7_16', 1),
    (u'2272846159', u'11_17', 2)],
    ("user_id", "item_id_str", "rating"))

接下来我们需要一个StringIndexer

from pyspark.ml.feature import StringIndexer

indexer = StringIndexer(inputCol="item_id_str", outputCol="item_id")

最后让我们使用索引器转换 DataFrame:

from pyspark.sql.functions import col

transformed = (indexer
    .fit(ratings_df)
    .transform(ratings_df)
    .withColumn("user_id", col("user_id").cast("integer"))
    .select("user_id", "item_id", "rating"))

并转换为RDD[Rating]:

from pyspark.mllib.recommendation import Rating

ratings_rdd = transformed.map(lambda r: Rating(r.user_id, r.item_id, r.rating))

在较新版本的 Spark 中，您可以跳过转换，直接使用 ml.recommendation.ALS:

from pyspark.ml.recommendation import ALS

als = (ALS(userCol="user_id", itemCol="item_id", ratingCol="rating")
  .fit(transformed))

关于python - 在 pyspark 中转换 ALS 的输入数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33723099/

26

4

0

文章推荐： python - python中时间序列数据的存储

文章推荐： c# - WPF MouseMove InvalidateVisual OnRender 更新非常慢

文章推荐： python - 将 Graphlab SFrame 日期列拆分为三列(年月日)

文章推荐： python - 运行 playbook 后访问 ansible playbook 结果

c++ - XOR AL,AL + MOVZX EAX, AL 比 XOR EAX,EAX 有什么优势？
我有一些未知的 C++ 代码是在发布版本中编译的，因此对其进行了优化。我正在努力解决的问题是: xor al, al add esp, 8 cmp byte ptr [ebp+
assembly - x86 程序集中的 `or al, al`
print_string: lodsb ; grab a byte from SI cmp al, 0 ;or al, al ; logical or AL by i
将测试 al,al 转换为 c
如何用 C 语言编写 test al,al 代码？我试过 if((n & 0xFF) & 0){} 但这不正确。谢谢。最佳答案我猜你接下来要检查零标志，即 jz 或类似的。在那种情况下你会想要
linux - 为什么 `ls -al & ; ls -al`无效？
我在我的 Centos5 机器上运行了这个: ls -al & ; ls -al 我期待它在后台运行 ls -al，同时在前台运行 ls -al，并演示终端的输出是如何被破坏的通过这样做。但是，我得
java - ArrayList al = new ArrayList(); 和有什么区别ArrayList al = new ArrayList(0)？
ArrayList al = new ArrayList(); 和有什么区别？ ArrayList al = new ArrayList(0)？最佳答案 ArrayList(0) 具有指定初始容量的
java - 面向对象 : Difference between ArrayList al = new ArrayList() and List al = new ArrayList()?
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: List versus ArrayList 之间的区别 ArrayList al = new ArrayLi
linux - 对 X86_64 linux : Why should we write mov [digit], al 的程序集中标签的使用感到困惑，但不是 mov digit, al？
这是我的代码: section .data digit db 0,10 section .text global _start _start: call _printRAXD
c++ - 在带有 XCode 4.1 的 Mac OS X Lion 上找不到 OpenAL 的 AL/al.h
我已经在 XCode 中创建了一个项目并添加了 OpenAL 框架。当我尝试包含 AL/al.h 时，编译器仍然找不到它。我在哪里添加 OpenAL 的包含目录？编辑:抱歉我忘了补充:我正在使用
assembly - 如何提取位于 AL 中定义的索引位置的字节
问题陈述:需要从ymm0寄存器中提取位于其值在寄存器AL中的位置的字节。我的方法:(相当难看): ; Set XMM1 to be a "shift one byte by righ
.net - 在Powershell中交互使用Mutexes(et al)
在调试使用信号量进行跨进程同步的应用程序时，我偶然发现了使用PowerShell代替“其他”进程的想法。在PowerShell中执行以下操作可以正常工作: // In C# application:
apache-spark - ALS 推荐的笛卡尔积错误
我正在尝试为用户显示电影推荐列表。模型已经过训练，但在尝试显示预测时出现错误。 als = ALS(maxIter=5, regParam=0.01, userCol="userID", itemCo
azure - Spark ALS 隐式异常
我们在 Azure Spark 上使用 ALS 来构建我们的推荐系统。由于计算能力的原因，我们无法为每个用户输出不同的推荐列表。因此，我们将用户分为聚类，并使用 ALS 为每个单独的聚类质心输出推荐
assembly - "AND AL,0xFF"的目的是什么？
我正在阅读一个反汇编的 win32 c++ 程序，我看到了很多: AND AL,0xFF 这是完全没有意义的还是为什么编译器会生成这些？这是一个更长的例子: movsx eax, byte pt
apache-spark - ALS 是确定性的吗？
我对用于推荐引擎的 ALS 有疑问？ ALS 是确定性的吗？比如，如果你输入相同的数据和相同的参数，你是否应该总是得到相同的输出(或非常相似的结果)？最佳答案简短的回答应该是:NO。矩阵分解算法的
c - al 发送假键盘事件、空白问题
我正在使用 gtk 和 xlib(xtst) 创建一个程序来将假按键发送到应用程序，我创建了这个循环来将按键发送到事件窗口: Display *dis; dis = XOpenDisp
scala - 如何在协同过滤中设置 ALS 隐式反馈的首选项？
我正在尝试使用带有隐式反馈的 Spark MLib ALS 进行协作过滤。输入数据只有两个字段userId和productId。我没有产品评分，只有用户购买过哪些产品的信息，仅此而已。因此，为了训练
linux - 我如何找到这个 al 寄存器中的值？
我正在做一个处理 x86 汇编语言的二进制炸弹实验室作业(我相信是 at&t)。我正在运行我的代码并走到最后，但最后我将我的 306 值与这个 %al 寄存器进行比较，我不知道如何获得它的值，因为我尝
linux - ls -al 输出列字段
有人可以指导我在linux中ls -ali输出的每一列描述什么吗？最佳答案 ls -ali 类似这样的事情 67403780 -rw-------. 1 root root 1114 12月
c++ - 列出所有打开 AL 的设备不起作用
我找到了一些声称使用 openAL 列出所有音频输出设备的示例，但是我只能让它们列出当前在 OSX(Yosemite、Maverick)上选择的设备。我使用的是 mac，有默认声卡(内置输出)以及 a
Linux按日期排序 "ls -al"输出
我想根据日期对“ls -al”命令的输出进行排序。我可以使用命令轻松地为一列执行此操作: $ ls -al | sort -k6 -M -r 但是如何同时对第 6 列和第 7 列执行此操作？命令: $

首页

博学

6Ren·AI

商城

python - 在 pyspark 中转换 ALS 的输入数据