python - 创建距中心距离的列-6ren

python - 创建距中心距离的列

转载作者：太空宇宙更新时间：2023-11-03 14:00:26

25

4

我正在使用 pyspark 运行 Kmeans 算法。输入是长度为 20 的 Vector(文本 verbatim 上的 word2vec 的输出)。然后，我转换输入数据帧以获取与每个逐字关联的预测中心。

from pyspark.ml.clustering import KMeans

n_centres = 14
kmeans = KMeans().setK(n_centres).setSeed(1)
model = kmeans.fit(df)
df_pred = model.transform(df)

我得到以下结果:

df_pred.show()

+--------------------+----------+
|            features|prediction|
+--------------------+----------+
|[-0.1879145856946...|        13|
|[-0.4428333640098...|         6|
|[0.00466226078569...|         9|
|[0.09467326601346...|        12|
|[-0.0388545106080...|         5|
|[-0.1805213503539...|        13|
|[0.08455141757925...|         3|
+--------------------+----------+

我想在我的数据框中添加一列，其中包含特征数组与其关联的中心之间的距离。我知道我可以获得中心的坐标，我知道如何计算向量和中心之间的距离:

model.clusterCenters()[3] # to get the coordinates of cluster number 3
v1.squared_distance(center_vect) # euclidean distance between v1 and the center center_vect

但我不知道如何将此计算的结果添加为列。 udf 或 map 似乎是一个解决方案，但我不断收到如下错误:PicklingError:无法序列化对象...。

最佳答案

您认为需要使用 UDF 是正确的。以下是在类似上下文中如何工作的示例:

>>> import random
>>> from pyspark.sql.functions import udf
>>> centers = {1: 2, 2: 3, 3: 4, 4:5, 5:6}
>>> choices = [1, 2, 3, 4,5]
>>> l = [(random.random(), random.choice(choices)) for i in range(10)]
>>> df = spark.createDataFrame(df, ['features', 'prediction'])
>>> df.show()
+-------------------+----------+
|           features|prediction|
+-------------------+----------+
| 0.4836744206538728|         3|
|0.38698675915124414|         4|
|0.18612684714681604|         3|
| 0.5056159922655895|         1|
| 0.7825023909896331|         4|
|0.49933715239708243|         5|
| 0.6673811293962939|         4|
| 0.7010166164833609|         3|
| 0.6867109795526414|         5|
|0.21975859257732422|         3|
+-------------------+----------+
>>> dist = udf(lambda features, prediction: features - centers[prediction])
>>> df.withColumn('dist', dist(df.features, df.prediction)).show()
+-------------------+----------+-------------------+
|           features|prediction|               dist|
+-------------------+----------+-------------------+
| 0.4836744206538728|         3| -3.516325579346127|
|0.38698675915124414|         4| -4.613013240848756|
|0.18612684714681604|         3| -3.813873152853184|
| 0.5056159922655895|         1|-1.4943840077344106|
| 0.7825023909896331|         4| -4.217497609010367|
|0.49933715239708243|         5| -5.500662847602918|
| 0.6673811293962939|         4|-4.3326188706037065|
| 0.7010166164833609|         3| -3.298983383516639|
| 0.6867109795526414|         5| -5.313289020447359|
|0.21975859257732422|         3| -3.780241407422676|
+-------------------+----------+-------------------+

您可以将我创建 UDF 的行更改为如下所示:

dist = udf(lambda features, prediction: features.squared_distance(model.clusterCenters()[prediction]))

由于我没有可用的实际数据，我希望这是正确的!

关于python - 创建距中心距离的列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49283986/

25

4

0

文章推荐： python - 带标签的 CSV 文件

文章推荐： python - 通过在一列字符串中找到确切的单词来创建一个新列

JavaScript 中心
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: How to align a to the middle of the page 这是一个简单的问题，应该有一个简
flutter - 中心 ListView
我想知道如何在屏幕中央的ListView中生成2个itens。 class _CategoriesState extends State { List categories = ["Anterio
ios - 中心 UICollectionViewCells
我需要修复 UICollectionView 的一个小问题，当在 6s 设备尺寸上时，我得到如下布局: 但是，我想知道将它们居中以使其成为两条线的最佳方法是什么，或者我应该将它们缩小一点以便可以放置其
swift - 中心 CAShapeLayer
我尝试在 UIImageView 中居中 CAShapeLayer 但没有成功，我找到了解决方案，将其(CAShapeLayer)添加到 UIVIew，然后将 UIVIew 添加到 ImageView
java - 中心 ImageView
一直在从线性布局和相对布局切换，因为我想实现图像的居中。显示图片:
css - 如何将网站的位置设置在窗口的中间/中心？
* { margin:0; padding:0; } /** General Style Info **/ body { background: #003d4c; co
css - 中心 rsCaption
我目前正在尝试修改我在 Wordpress 上的 Royal Slider 插件 (http://dimsemenov.com/plugins/royal-slider/) 我的目标是将所有标题的文本
javascript - Zoom_changed - 中心
我已经坚持了一段时间，因此简化了我的要求。当您单击标记时，信息窗口将打开，当用户缩放时，我希望该标记位于 map 的中心。这不起作用，但我认为它很接近: function bindInfoWindow
css - 响应式电子邮件图像位置问题(中心)
/* Linked Styles */ body { padding: 0 !important;
CSS 中心 float
这个问题在这里已经有了答案: How do I center floated elements? (12 个答案) 关闭 7 年前。
css - 中心/中间对齐元素大于容器
这个问题在这里已经有了答案: Is there an equivalent to background-size: cover and contain for image elements? (1
html - 让文本在所有屏幕尺寸下都停留在页面的中间/中心？
我试图让我的页眉停留在页面的中间，不管我在什么窗口大小。我试过使用 Bootstrap。 StackOverflow 还有这个 CSS。 .section-t
CSS 中心，固定导航
我有一个 1600 像素宽的页面。主要区域虽然只有 900 像素宽。我有一个导航应该固定在页面的中心(它是)。我的问题是当我打开页面时，页面固定在左侧而不是在打开时居中。当用户访问该网站时，我需要做什
android - 旋转或缩放后的 View 中心
我正在尝试找到 View 的中心。对于非旋转 View ，该值是正确的，但对于旋转 View ，它不正确，因为中心 (0,0) 正在旋转。在缩放的情况下，即使缩放后宽度和高度也保持不变我正在使用以下
Flutter TextField LabelText 中心
预期效果是将 Kartennummer 和 Passwort 集中。这怎么可能？我为此使用了一个自定义类: import 'package:flutter/material.dart'; impo
maven - 将项目移动到 Maven 中心
我管理着许多 Maven 项目。他们中的大多数部署到我们的内部 maven 存储库。现在我想开始向 Maven Central 发布一个项目。到目前为止，我有一个父 POM，它指定了我们内部存储库的
vb.net - 锚定两个控件+中心
我试图锚定两个进展，但我看不到获得预期结果的方法。我希望左边的进度条固定在左边，右边的条固定在中心固定(如下图所示) (下图显示调整大小的表格) 我尝试将控件放在具有各种 anchor 的停靠面板上
angularjs - 中心 Angular 模态用户界面
我正在玩 Angular 模态 ui 对话框。我想知道有什么方法可以让它居中？我发现了一个类似的问题: Twitter Bootstrap - Center Modal Dialog 但无法使其工作，
JQuery、Flot、值标签、中心
是否可以将值标签放置在条形上，使它们位于条形的中心？如果我设置条形 align: "center"，则条形上的标签将关闭且不居中。 $(function() { var d
signalr - 引用项目中的 map 中心
http://www.asp.net/signalr/overview/signalr-20/getting-started-with-signalr-20/tutorial-signalr-20-s

首页

博学

6Ren·AI

商城

python - 创建距中心距离的列