python - Spark 中的无序集或类似集？-6ren

python - Spark 中的无序集或类似集？

转载作者：塔克拉玛干更新时间：2023-11-03 06:17:23

25

4

我有这种格式的数据:

(123456, (43, 4861))

(000456, (43, 4861))

其中第一项是点 id，第二项是一对，其中第一个 id 是一个簇质心，第二个 id 是另一个簇质心。也就是说，点 123456 被分配给了簇 43 和 4861。

我想做的是创建这种格式的数据:

(43, [123456, 000456])

(4861, [123456, 000456])

想法是每个质心都有一个分配给它的点列表。该列表必须的最大长度为 150。

在 spark 或 python 中有什么可以让我的生活更轻松的吗？

我不关心快速访问和排序。我有 100m 个点和 16k 个质心。

这是我用来玩的一些人工数据:

data = []
from random import randint
for i in xrange(0, 10):
    data.append((randint(0, 100000000), (randint(0, 16000), randint(0, 16000))))
data = sc.parallelize(data)

最佳答案

从你的描述来看(虽然我还是不太明白)，这是一个使用 Python 的简单方法:

In [1]: from itertools import groupby

In [2]: from random import randint

In [3]: data = []  # create random samples as you did
   ...: for i in range(10):
   ...:     data.append((randint(0, 100000000), (randint(0, 16000), randint(0, 16000))))
   ...:

In [4]: result = []  # create a intermediate list to transform your sample
   ...: for point_id, cluster in data:
   ...:     for index, c in enumerate(cluster):
                # I made it up following your pattern
   ...:         result.append((c, [point_id, str(index * 100).zfill(3) + str(point_id)[-3:]]))
        # sort the result by point_id as key for grouping
   ...: result = sorted(result, key=lambda x: x[1][0])
   ...:

In [5]: result[:3]
Out[5]:
[(4020, [5002188, '000188']),
 (10983, [5002188, '100188']),
 (10800, [24763401, '000401'])]

In [6]: capped_result = []
        # basically groupby sorted point_id and cap the list max at 150
   ...: for _, g in groupby(result, key=lambda x: x[1][0]):
   ...:     grouped = list(g)[:150]
   ...:     capped_result.extend(grouped)
        # final result will be like
   ...: print(capped_result)
   ...:
[(4020, [5002188, '000188']), (10983, [5002188, '100188']), (10800, [24763401, '000401']), (12965, [24763401, '100401']), (6369, [24924435, '000435']), (429, [24924435, '100435']), (7666, [39240078, '000078']), (2526, [39240078, '100078']), (5260, [47597265, '000265']), (7056, [47597265, '100265']), (2824, [60159219, '000219']), (5730, [60159219, '100219']), (7837, [67208338, '000338']), (12475, [67208338, '100338']), (4897, [80084812, '000812']), (13038, [80084812, '100812']), (2944, [80253323, '000323']), (1922, [80253323, '100323']), (12777, [96811112, '000112']), (5463, [96811112, '100112'])]

当然，这根本没有优化，但会让您抢先一步，了解如何解决这个问题。我希望这会有所帮助。

关于python - Spark 中的无序集或类似集？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39379889/

25

4

0

文章推荐： algorithm - Damerau–Levenshtein 距离的迭代版本

文章推荐： java - 二进制搜索程序打印错误

文章推荐： javascript - 使用 JavaScript 创建色轮

文章推荐： c++ - OpenGL三角形邻接计算

类似 SQL 的搜索字符串开头为
学习SQL。有一个简单的带有字段标题的桌面游戏。我想根据标题进行搜索。如果我有一款名为 Age of Empires III: Dynasties 的游戏，并且我使用 LIKE 和参数 Age of
haskell - 为列表创建一个镜头(类似)
我正在尝试为以下数据结构创建镜头。我正在使用lens-family . data Tree = Tree { _text :: String, _subtrees ::
类似 Clojure 的方式在循环中使用数据结构
我发现很难理解这一点。比如说，在 Python 中，如果我想要一个根据用户输入在循环中修改的列表，我会有这样的内容: def do_something(): x = [] while(
类似 mysql 的部分匹配问题
我有一个像这样的 mysql 查询 SELECT group_name FROM t_groups WHERE group_name LIKE '%PCB%'; 结果是 group_name ----
MySQL - 类似 - 正则表达式的替代品？
我的数据库表中有超过一百万条记录。当我使用like时非常慢，当我使用match against时他们丢失了一些记录。我创建帮助表: 标签列表 tag_id tag_name tag_rel_me
javascript - JXBrowser 类似
我在我的一个 Java 项目中使用 JXBrowser 来简单显示 googlemaps 网页，以便我可以在那里跟踪路线，但最近我想改进该项目，但我的问题是 JXBrowser 的许可证过期(只有一个
类似 Mysql 的语法
小问题:如何将 mysql_escape_string 变量包含在 like 子句中？ "SELECT * FROM table WHERE name LIKE '%". %s . "%'" 或
类似 Javascript 的确认框
我尝试使用几个jquery消息插件，例如alertify . 但我注意到的主要事情是系统消息框会停止后台功能，直到用户响应。其他插件没有此功能。有没有办法将此功能添加到 jquery 插件中？可以扩
类似 ruby 猫壳
我是 Ruby 新手。我过去使用过 shell。我正在将 shell 程序转换为 ruby。我有以下命令 cmd="cat -n " + infile + " | grep '127.0.0.1
类似 iOS 的网页界面
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
string - 类似 str 的迭代器
当我研究 Rust 时，我试图编写一个 Rust 函数来查看任何可迭代的字符串。我最初的尝试是 fn example_1(iter: impl Iterator); fn example_2(ite
GWT 代码拆分下载进度条 - 类似 gmail
我必须在我的项目中使用代码拆分。但无论如何，第一次初始下载有一些代码。现在我想向最终用户展示代码下载(.cache.html - 或其他代码拆分)的进度，例如 gmail 启动进度。请你帮帮我。
Clojure::类似 Lint 的提示
我今天找到了一个错误，它最终是由我代码中的以下片段引起的(我试图在列表中仅过滤“PRIMARY KEY”约束): (filter #(= (% :constraint_type "PRIMARY KE
SQL Server - 类似/模式匹配
我正在尝试在关键字段上实现检查约束。关键字段由 3 个字符的前缀组成，然后附加数字字符(可以手动提供，但默认是从序列中获取整数值，然后将其转换为 nvarchar)。关键字段定义为 nvarhcar(
java - 类似 ArrayList 声明之间的类型差异
我正在尝试使用以下方式创建 List 实例: List listOne = new ArrayList(); List listTwo = new ArrayList(){}; List listTh
macos - UITableView 类似 NSTableView
我过去曾为 iOS 开发过，最近转向了 mac 开发。我开始了一个“感受”事物的项目，但遇到了一个问题。我试图创建一个 NSTableView 来显示多个项目，包括一个标签、一个 2 UIImageV
类似 "not having"的 SQL 查询？
我正在尝试编写一个查询，该查询将返回哪些主机缺少某个软件: Host Software A Title1 A
c - 类似 malloc 函数的严格别名的原因
AFAIK，在三种情况下别名是可以的仅限定符或符号不同的类型可以互为别名。 struct 或 union 类型可以为包含在其中的类型设置别名。将 T* 转换为 char* 是可以的。 (不允许相反
regex - 类似 Perl 的速记字符类在括号表达式中不起作用
\s 似乎不适用于 sed 's/[\s]\+//' tempfile 当它为工作时 sed 's/[ ]\+//' tempfile 我正在尝试删除由于命令而出现在每行开头的空格: nl -s ')
F# 图形库(类似 ocamlgraph)
我正在使用 ocamlgraph 在 ocaml 中编写程序，并想知道是否要将其移植到 F# 我有哪些选择？谢谢。最佳答案 QuickGraph .Net 最完整的图形库之一关于F# 图形库(类似

首页

博学

6Ren·AI

商城

python - Spark 中的无序集或类似集？