scala - 来自 DataFrame 的 RowMatrix 包含空值-6ren

scala - 来自 DataFrame 的 RowMatrix 包含空值

转载作者：行者123 更新时间：2023-11-30 09:34:17

25

4

我有一个关于电影的用户评分(从 1 到 5)的 DataFrame。为了获取 DataFrame，其中第一列是电影 id，其余列是每个用户对该电影的评分，我执行以下操作:

val ratingsPerMovieDF = imdbRatingsDF
  .groupBy("imdbId")
  .pivot("userId")
  .max("rating")

现在，我得到一个 DataFrame，其中大多数值都是 null，因为大多数用户只评价了几部电影。

我有兴趣计算这些电影之间的相似度(基于项目的协作过滤)。

我试图使用评级列值组装一个 RowMatrix (用于使用 mllib 进行进一步的相似性计算)。但是，我不知道如何处理 null 值。

在下面的代码中，我尝试为每一行获取一个向量:

val assembler = new VectorAssembler()
  .setInputCols(movieRatingsDF.columns.drop("imdbId"))
  .setOutputCol("ratings")

val ratingsDF = assembler.transform(movieRatingsDF).select("imdbId", "ratings")

给我一个错误:

Caused by: org.apache.spark.SparkException: Values to assemble cannot be null.

我可以使用 .na.fill(0) 将它们替换为 0，但这会产生不正确的相关结果，因为几乎所有向量都会变得非常相似。

任何人都可以建议在这种情况下该怎么做吗？这里的最终目标是计算行之间的相关性。我正在考虑以某种方式使用 SparseVectors (忽略 null 值，但我不知道如何操作。

我是 Spark 和 Scala 的新手，所以其中一些内容可能没有什么意义。我正在努力更好地理解事物。

最佳答案

我相信您正在以错误的方式处理这个问题。处理 Spark API 的细微差别对于正确的问题定义来说是次要的 - 在稀疏数据的情况下，相关性到底意味着什么。

在明确反馈(评级)的情况下用零填充数据是有问题的，不是因为所有向量都会变得非常相似(指标的变化将由现有的评级，并且结果始终可以使用最小-最大缩放器重新缩放)，但因为它引入了原始数据集中不存在的信息。未评级的项目与评级最低的项目之间存在显着差异。

总的来说，您可以通过两种方式解决此问题:

您可以仅使用两个项目都具有非缺失值的条目来计算成对相似度。如果数据集相当密集，这应该可以很好地工作。它可以使用输入数据集上的自连接来表达。使用伪代码:
```
imdbRatingsDF.alias("left")
  .join(imdbRatingsDF.alias("right"), Seq("userId"))
  .where($"left.imdbId" =!= $"right.imdbId")
  .groupBy($"left.imdbId", $"right.imdbId")
  .agg(simlarity($"left.rating", $"right.rating"))
```
其中相似度实现所需的相似度度量。
您可以估算缺失的评级，例如使用某种集中趋势度量。使用平均值 ( Replace missing values with mean - Spark Dataframe ) 可能是最自然的选择。
更先进的插补技术可能会提供更可靠的结果，但在分布式系统中可能无法很好地扩展。

注意

使用SparseVectors本质上等同于na.fill(0)。

关于scala - 来自 DataFrame 的 RowMatrix 包含空值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47336113/

25

4

0

文章推荐： java - Java 中的 k 最近邻图实现

文章推荐： javascript - 什么是 ES6 等效于 module.exports = { key : "value" }?

文章推荐： machine-learning - 循环神经网络最简单的基准是什么？

java - JGroups:发送(空，空，消息)与发送(地址，空，消息)
我已经为使用 JGroups 编写了简单的测试。有两个像这样的简单应用程序 import org.jgroups.*; import org.jgroups.conf.ConfiguratorFact
javascript - 空/空 json 如何检查它而不输出？
我有一个通过 ajax 检索的 json 编码数据集。我尝试检索的一些数据点将返回 null 或空。但是，我不希望将那些 null 或空值显示给最终用户，或传递给其他函数。我现在正在做的是检查
c# - 如果(值==空)与如果(空==值)
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Why does one often see “null != variable” instead of “
java - 如果(空!=变量)为什么不如果(变量!=空)
嗨在我们公司，他们遵循与空值进行比较的严格规则。当我编码 if(variable!=null) 在代码审查中，我收到了对此的评论，将其更改为 if(null!=variable)。上面的代码对性能有影
typescript - Cordova 插件-qrscanner : error: no suitable constructor found for DefaultDecoderFactory(ArrayList, <空>，<空>)
我正在尝试使用 native Cordova QR 扫描仪插件编译项目，但是我不断收到此错误。据我了解，这是代码编写方式的问题，它向构造函数发送了错误的值，或者根本就没有找到构造函数。那么我该如何解决
Apache Nutch 错误 : Injector: java. io.IOException:命令字符串中的(空)条目:空 chmod 0644
我在装有 Java 1.8 的 Windows 10 上使用 Apache Nutch 1.14。我已按照 https://wiki.apache.org/nutch/NutchTutorial 中提
SQL为空且=空
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: what is “=null” and “ IS NULL” Is there any difference bet
空-三眼乌鸦
Three-EyedRaven 内网渗透初期，我们都希望可以豪无遗漏的尽最大可能打开目标内网攻击面，故，设计该工具的初衷是解决某些工具内网探测速率慢、运行卡死、服务爆破误报率高以及socks流
Scala-空(？)作为命名Int参数的默认值
我想在Scala中像在Java中那样做: public void recv(String from) { recv(from, null); } public void recv(String
python - 空/无SIFT描述符和在python中生成的关键点
我正在尝试从一组图像补丁中创建一个密码本。我已将图像(Caltech 101)分成20 X 20图像块。我想为每个补丁创建一个SIFT描述符。但是对于某些图像补丁，它不返回任何描述符/关键点。我尝试使
spring - @Autowire注释的问题(空)
我在验证器类中自动连接的两个服务有问题。这些服务工作正常，因为在我的 Controller 中是自动连接的。我有一个 applicationContext.xml 文件和 MyApp-servlet.
java - 空 while 循环的线程问题
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。已关闭10 年前。问题必须表现出对要解决的问题的最低程度的了解。告诉我们您尝试过做什么，为什么不起作用，以
php - mysql_num_rows 空
大家好，我正在对数据库进行正常的选择，但是 mysql_num_rowsis 为空，我不知道为什么，我有 7 行选择。如果您发现问题，请告诉我。真的谢谢。代码如下: function get_b
ios - 打印出连接的字符串显示(空)
我想以以下格式创建一个字符串:id[]=%@&stringdata[]=%@&id[]=%@&stringdata[]=%@&id[]=%@&stringdata[]=%@&等，在for循环中，我得到
ios - stringWithContentsOfURL返回(空)
我正在尝试使用以下代码将URL转换为字符串: NSURL *urlOfOpenedFile = _service.myURLRequest.URL; NSString *fileThatWasOpen
iphone - 将UInt32传递给NSData对象返回(空)
我正在尝试将NSNumber传递到正在工作的UInt32中。然后，我试图将UInt32填充到NSData对象中。但是，这在这里变得有些时髦... 当我尝试将NSData对象中的内容写成它返回的字符串(
java - 服务器cookie=空
我正在进行身份验证并收到空 cookie。我想存储这个 cookie，但服务器没有返回给我 cookie。但响应代码是 200 ok。 httpConn.setRequestProperty(
java - 简单的菜鸟应用程序每次都会崩溃..(空)？
我认为 Button bTutorial1 = (Button) findViewById(R.layout.tutorial1); bTutorial1.setOnClickListener
jsp - 如何在JSTL中查找HashMap是否为空/空？
我的 Controller 中有这样的东西: model.attribute("hiringManagerMap",hiringManagerMap); 我正在访问此 hiringManagerMap
jQuery 空() ListView
我想知道如何以正确的方式清空列表。在 div 中有一个列表然后清空 div 或列表更好吗？我知道这是一个蹩脚的问题，但请帮助我理解这个 empty() 函数:) 案例)如果我运行这个脚本会发生什么:

首页

博学

6Ren·AI

商城

scala - 来自 DataFrame 的 RowMatrix 包含空值