python - 查找每个 kmeans 集群的 HitTest 门单词-6ren

python - 查找每个 kmeans 集群的 HitTest 门单词

转载作者：行者123 更新时间：2023-12-01 04:21:47

25

4

我有以下代码部分，将推文集合的 TFIDF 映射到原始单词，然后使用原始单词查找每个集群中的热门单词:

#document = sc.textFile("<text file path>").map(lambda line: line.split(" "))
#"tfidf" is an rdd of tweets contained in "document"
#map tfidf to original tweets and cluster similar tweets
clusterIds = clusters.predict(tfidf)
mapped_value = clusterIds.zip(document)
cluster_value = mapped_value.reduceByKey(lambda a,b: a+b).take(cluster_num)


#Fetch the top 5 words from each cluster
topics = []
for i in cluster_value:
    word_count = sc.parallelize(i[1])
    topics.append(
        word_count.map(lambda x: (x,1))
            .reduceByKey(lambda x,y: x+y)
            .takeOrdered(5, key=lambda x: -x[1]))

有更好的方法吗？我在 Spark UI 上看到，在具有 20.5 GB 执行程序内存和 2 GB 驱动程序内存的 4 个虚拟机集群上执行 reduceByKey() 操作时，我的代码需要大约 70 分钟。推文数量为 500K。针对停用词和垃圾字符进行后处理的文本文件大小为 31 Mb。

最佳答案

由于您没有提供a Minimal, Complete, and Verifiable example我只能假设 document rdd 包含标记化文本。因此，让我们创建一个虚拟示例:

mapped_value = sc.parallelize(
    [(1, "aabbc"), (1, "bab"), (2, "aacc"), (2, "acdd")]).mapValues(list)
mapped_value.first()
## (1, ['a', 'a', 'b', 'b', 'c'])

您可以做的一件事是同时聚合所有集群:

from collections import Counter

create_combiner = Counter

def merge_value(cnt, doc):
    cnt.update(Counter(doc))
    return cnt

def merge_combiners(cnt1, cnt2):
    cnt1.update(cnt2)
    return cnt1

topics = (mapped_value
    .combineByKey(create_combiner, merge_value, merge_combiners)
    .mapValues(lambda cnt: cnt.most_common(2)))

topics
## [(1, [('b', 4), ('a', 3)]), (2, [('a', 3), ('c', 3)])]

您可以通过用普通的 dict 替换 Counter 并手动计数/更新来进一步改进，但我认为这不值得大惊小怪。

有什么收获？

首先，减少必须移动的数据量(序列化 - 传输 - 反序列化)。特别是，您收集数据不仅仅是为了将数据发送回工作人员。
收集和发送的费用很高，因此您应该避免这样做，除非这是唯一的选择。如果整个数据集的聚合成本高昂，更好的方法可能是重复的过滤器，相当于这样:
```
[rdd.filter(lambda (k, v): k == i).map(...).reduce(...)
    for i in range(number_of_clusters)]
```
您只启动一项工作，而不是每个集群启动一项工作，并且启动一项工作并不便宜(例如，请参阅我对 Spark MLLib's LassoWithSGD doesn't scale? 的回答)。您在这里可以获得多少 yield 取决于集群的数量。
由于数据没有被扁平化，所以要做的事情就更少了。连接列表不会给您带来任何好处，并且需要大量复制。使用字典可以减少存储的数据量，就地更新不需要副本。您可以尝试通过调整 merge_value 来进一步改进:
```
def merge_value(cnt, doc):
    for v in doc:
        cnt[v] += 1
    return cnt1
```

<小时/>

旁注:

如果有 30 MB 的数据和 20.5 GB 的内存，我根本不会使用 Spark。由于 k 均值需要很少的额外内存，因此您可以以低得多的成本在本地并行创建多个模型。

关于python - 查找每个 kmeans 集群的 HitTest 门单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33599003/

25

4

0

文章推荐： firefox - 客户端证书和 FireFox

文章推荐： Python Pillow EXIF 数据未返回

文章推荐： jquery - FancyBox 通过 AJAX 获取图像的 href

文章推荐： python - 为什么 Beautifulsoup 找不到这个输入的名称？

WPF HitTest 矩形区域
我有一个包含任意数量锯齿状元素的 WrapPanel。我想为我的项目实现拖动选择。如何对一个点进行 HitTest 似乎很明显，但我如何才能找到矩形区域内的所有项目？最佳答案您可以使用 Visu
WPF 用户控件 HitTest
我有以下用户控件:一个点及其名称: 这很酷。现在，我有一个面板，我需要恢复我用鼠标击中的停止点: public partial class
iPhone hitTest 旋转后损坏
我有一个 UIView，其中包含许多 CALayer 子类。我使用以下代码来检测触摸事件对应于哪一层: - (void)touchesBegan:(NSSet *)touches withEvent:
cocoa - 上下文菜单的自定义 HitTest
我有一个透明的 NSView，它画了一个圆圈。我想自定义显示上下文菜单时使用的 HitTest 。目前它使用边界矩形。我想更改它以测试圆圈内的点击。最佳答案尝试覆盖 NSView menuFor
wpf3d 矩形 HitTest
我有一个包含驻留在 Viewport3D 中的 3D 对象的应用程序，我希望用户能够通过在屏幕上拖动一个矩形来选择它们。我尝试在 Viewport3D 上应用 GeometryHitTestPara
wpf - 对转换后的路径进行不正确的 HitTest
在 RenderTransform 属性中具有较大缩放因子的 Path 元素上，输入命中测试会产生不正确的结果。以下 XAML 定义了一个带有实心圆和Hand 光标的 Path。
Java HitTest 行为异常
我试图扩展 java ScrollDemo2 来报告 Canvas 上的形状是否被单击。我从一个简单的矩形开始，相信简单地循环 Canvas 中的矩形检查点击点是否包含在其中应该没有问题。但随后发生了
WPF - HitTest 渲染的字符像素
有没有办法在wpf中 HitTest 字符的像素？我希望能够命中字符“i”的点，但是当我单击点和“i”行之间的空格时不会命中。我尝试使用 DrawingContext.DrawText 方法来完成此操
c# - HitTest 属性
我是 silverlight 的新手，正在尝试阅读使用 HitTest 方法了解鼠标何时位于控件上的 silverlight 教程。但不幸的是，我看不到任何具有此名称的方法。 HitTest 方法在哪
c# - 如何对字符串中的位置执行 HitTest
我正在使用 Graphics.DrawString 写出一个字符串，并且需要在给定鼠标位置的字符串中获取字符索引。这看起来应该很简单，但我真的很难找到一种可行的方法。我发现 e.Graphics.
android - 逐项叠加 HitTest
我正在使用这种方法来检测是否有人点击了叠加层。现在一切正常，除了点击区域太小。所以我查看了 api，它说“查看给定的命中点是否在项目标记的范围内。”。我像这样把边界变大了: Log.d("debug
android - 矩阵操作矩形的 HitTest
我有一个位图图像，我正在尝试对其进行 HitTest 。如果它只是一个普通位图，则 HitTest 有效。但是我需要旋转和缩放位图，但我似乎无法正确计算出 HitTest 。这里的x和y是光标x和y
PHP搜索mysql表找到 HitTest 门的字段
这有点难以解释，所以我举个例子。 mysql表书籍书籍 firstname |lastname |state |favbook john |doe | WA |bookna
ios - `UIGestureRecognizer` HitTest
UIViews是否针对UIGestureRecognizers 进行了 HitTest in the same way因为它们用于触摸事件？特别是，是否使用了相同的 hitTest:withEvent
MYSQL如何显示最近两天 HitTest 门的项目
我试图显示过去两天最流行的项目，但这个 View 让两天前发生的项目出现了。它是为了找到最近两天最流行的(可能是 20-30 个项目)并用随机项目填充剩余的( View 上始终需要 1000 个项目
html - 点击元素下方的 HitTest
继上一个问题之后，我试图找出下一个问题是否可行: 假设您有一个渲染图，例如具有透明背景的足球运动员。您将此呈现器添加到您的 html 和 css 中。透明部分现在是图像“盒子”的一部分；你不能点击图片
c# - 对列表框中的列表项进行 HitTest
我自定义了一个列表框来显示饼图(每个列表项都是饼图的一部分)。为此，我使用了一个 Itemtemplate，它(目前)仅包含一个 Shape。为了使这些形状形成一个完整的圆，我计算了每 block 的
c++ - 四个旋转顶点之间的 HitTest
我的程序中有一个简单的矩形，我必须对其进行 HitTest 。我正在使用 openFrameworks，但我认为这里的问题也与 OpenGL 主题有关。 public class Shape : pu
算法帮助 - 小对象的 HitTest
在处理草图中实现选择算法时，我循环遍历场景中的每个对象，并检查它是否在鼠标点击位置的几个像素范围内。有很多对象，而且它们非常小。正如您可以想象的那样，一旦场景中充满了物体，这就会变得非常麻烦。有没有
java - 哪种模式适合需要服务器验证的游戏中的子弹 HitTest ？
我想设计一个 PvP 游戏，在客户端和 java 套接字服务器中使用 flash，但我确实需要服务器验证弹道以及子弹是否从作弊中击中目标。是否有任何教程或论文提供了如何做到这一点？最佳答案要做到

首页

博学

6Ren·AI

商城

python - 查找每个 kmeans 集群的 HitTest 门单词