- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在使用 pyspark
运行 Kmeans
算法。输入是长度为 20 的 Vector
(文本 verbatim
上的 word2vec
的输出)。然后,我转换输入数据帧
以获取与每个逐字
关联的预测中心。
from pyspark.ml.clustering import KMeans
n_centres = 14
kmeans = KMeans().setK(n_centres).setSeed(1)
model = kmeans.fit(df)
df_pred = model.transform(df)
我得到以下结果:
df_pred.show()
+--------------------+----------+
| features|prediction|
+--------------------+----------+
|[-0.1879145856946...| 13|
|[-0.4428333640098...| 6|
|[0.00466226078569...| 9|
|[0.09467326601346...| 12|
|[-0.0388545106080...| 5|
|[-0.1805213503539...| 13|
|[0.08455141757925...| 3|
+--------------------+----------+
我想在我的数据框中添加一列,其中包含特征数组与其关联的中心之间的距离。我知道我可以获得中心的坐标,我知道如何计算向量和中心之间的距离:
model.clusterCenters()[3] # to get the coordinates of cluster number 3
v1.squared_distance(center_vect) # euclidean distance between v1 and the center center_vect
但我不知道如何将此计算的结果添加为列。 udf
或 map
似乎是一个解决方案,但我不断收到如下错误:PicklingError:无法序列化对象...
。
最佳答案
您认为需要使用 UDF 是正确的。以下是在类似上下文中如何工作的示例:
>>> import random
>>> from pyspark.sql.functions import udf
>>> centers = {1: 2, 2: 3, 3: 4, 4:5, 5:6}
>>> choices = [1, 2, 3, 4,5]
>>> l = [(random.random(), random.choice(choices)) for i in range(10)]
>>> df = spark.createDataFrame(df, ['features', 'prediction'])
>>> df.show()
+-------------------+----------+
| features|prediction|
+-------------------+----------+
| 0.4836744206538728| 3|
|0.38698675915124414| 4|
|0.18612684714681604| 3|
| 0.5056159922655895| 1|
| 0.7825023909896331| 4|
|0.49933715239708243| 5|
| 0.6673811293962939| 4|
| 0.7010166164833609| 3|
| 0.6867109795526414| 5|
|0.21975859257732422| 3|
+-------------------+----------+
>>> dist = udf(lambda features, prediction: features - centers[prediction])
>>> df.withColumn('dist', dist(df.features, df.prediction)).show()
+-------------------+----------+-------------------+
| features|prediction| dist|
+-------------------+----------+-------------------+
| 0.4836744206538728| 3| -3.516325579346127|
|0.38698675915124414| 4| -4.613013240848756|
|0.18612684714681604| 3| -3.813873152853184|
| 0.5056159922655895| 1|-1.4943840077344106|
| 0.7825023909896331| 4| -4.217497609010367|
|0.49933715239708243| 5| -5.500662847602918|
| 0.6673811293962939| 4|-4.3326188706037065|
| 0.7010166164833609| 3| -3.298983383516639|
| 0.6867109795526414| 5| -5.313289020447359|
|0.21975859257732422| 3| -3.780241407422676|
+-------------------+----------+-------------------+
您可以将我创建 UDF 的行更改为如下所示:
dist = udf(lambda features, prediction: features.squared_distance(model.clusterCenters()[prediction]))
由于我没有可用的实际数据,我希望这是正确的!
关于python - 创建距中心距离的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49283986/
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: How to align a to the middle of the page 这是一个简单的问题,应该有一个简
我想知道如何在屏幕中央的ListView中生成2个itens。 class _CategoriesState extends State { List categories = ["Anterio
我需要修复 UICollectionView 的一个小问题,当在 6s 设备尺寸上时,我得到如下布局: 但是,我想知道将它们居中以使其成为两条线的最佳方法是什么,或者我应该将它们缩小一点以便可以放置其
我尝试在 UIImageView 中居中 CAShapeLayer 但没有成功,我找到了解决方案,将其(CAShapeLayer)添加到 UIVIew,然后将 UIVIew 添加到 ImageView
一直在从线性布局和相对布局切换,因为我想实现图像的居中。 显示图片:
* { margin:0; padding:0; } /** General Style Info **/ body { background: #003d4c; co
我目前正在尝试修改我在 Wordpress 上的 Royal Slider 插件 (http://dimsemenov.com/plugins/royal-slider/) 我的目标是将所有标题的文本
我已经坚持了一段时间,因此简化了我的要求。当您单击标记时,信息窗口将打开,当用户缩放时,我希望该标记位于 map 的中心。这不起作用,但我认为它很接近: function bindInfoWindow
/* Linked Styles */ body { padding: 0 !important;
这个问题在这里已经有了答案: How do I center floated elements? (12 个答案) 关闭 7 年前。
这个问题在这里已经有了答案: Is there an equivalent to background-size: cover and contain for image elements? (1
我试图让我的页眉停留在页面的中间,不管我在什么窗口大小。 我试过使用 Bootstrap。 StackOverflow 还有这个 CSS。 .section-t
我有一个 1600 像素宽的页面。主要区域虽然只有 900 像素宽。我有一个导航应该固定在页面的中心(它是)。我的问题是当我打开页面时,页面固定在左侧而不是在打开时居中。当用户访问该网站时,我需要做什
我正在尝试找到 View 的中心。对于非旋转 View ,该值是正确的,但对于旋转 View ,它不正确,因为中心 (0,0) 正在旋转。在缩放的情况下,即使缩放后宽度和高度也保持不变 我正在使用以下
预期效果是将 Kartennummer 和 Passwort 集中。 这怎么可能? 我为此使用了一个自定义类: import 'package:flutter/material.dart'; impo
我管理着许多 Maven 项目。他们中的大多数部署到我们的内部 maven 存储库。现在我想开始向 Maven Central 发布一个项目。到目前为止,我有一个父 POM,它指定了我们内部存储库的
我试图锚定两个进展,但我看不到获得预期结果的方法。 我希望左边的进度条固定在左边,右边的条固定在中心固定(如下图所示) (下图显示调整大小的表格) 我尝试将控件放在具有各种 anchor 的停靠面板上
我正在玩 Angular 模态 ui 对话框。我想知道有什么方法可以让它居中?我发现了一个类似的问题: Twitter Bootstrap - Center Modal Dialog 但无法使其工作,
是否可以将值标签放置在条形上,使它们位于条形的中心? 如果我设置条形 align: "center",则条形上的标签将关闭且不居中。 $(function() { var d
http://www.asp.net/signalr/overview/signalr-20/getting-started-with-signalr-20/tutorial-signalr-20-s
我是一名优秀的程序员,十分优秀!