python - 按多列对数据框中的连续条目进行聚类/分组-6ren

python - 按多列对数据框中的连续条目进行聚类/分组

转载作者：行者123 更新时间：2023-12-04 10:46:42

29

4

题

假设我有 k 个标量列，如果它们沿着每列彼此在一定距离内，我想对它们进行分组。

假设简单 k 是 2 并且它们是我唯一的列。

pd.DataFrame(list(zip(sorted(choices(range(0,10), k=20)), choices(range(20,29), k=20))), columns=['a','b'])

产量

[(1, 27),
 (1, 27),
 (1, 21),
 (2, 23),
 (3, 25),
 (4, 23),
 (4, 28),
 (4, 27),
 (4, 22),
 (4, 24),
 (5, 26),
 (6, 21),
 (7, 26),
 (7, 20),
 (8, 24),
 (8, 25),
 (8, 23),
 (9, 20),
 (9, 28),
 (9, 21)]

我想要分组，以便组包含列 a 中的条目最多 m分开AND列 b最多 n分开。如果 m = n = 1，则聚类为:

(1, 27), (1, 27)
(1, 21)
(2, 23)
(3, 25), (4, 23), (4, 22), (4, 24)
(4, 28), (4, 27), (5, 26)
(6, 21), (7, 20)
(7, 26), (8, 24), (8, 25), (8, 23)
(9, 20), (9, 21)
(9, 28),

笔记

实现此目的的一种方法是使用 pdist ，但这不是一个好的解决方案，因为:

我有很多数据——不想做平方运算。

数据已经排序，m，n相对于列的范围

较小

m =/= n(不总是)否则 m+n 的曼哈顿距离阈值会起作用

我相信这可能是一个非常相关的问题，但它没有一个通用的答案:

Group by continuous indexes in Pandas DataFrame

可能让您找到答案的方法草图:

a, b, c, d, e = tee(range(10), 5)
next(b, None)
next(c, None);next(c, None)
next(d, None);next(d, None);next(d, None)
next(e, None);next(e, None);next(e, None);next(e, None)
list(zip(a, b, c, d, e))

[(0, 1, 2, 3, 4),
 (1, 2, 3, 4, 5),
 (2, 3, 4, 5, 6),
 (3, 4, 5, 6, 7),
 (4, 5, 6, 7, 8),
 (5, 6, 7, 8, 9)]

最佳答案

首先，我们做pdist与 metric = 'chebyshev'

test = np.array([(1, 27),
 (1, 27),
 (1, 21),
 (2, 23),
 (3, 25),
 (4, 23),
 (4, 28),
 (4, 27),
 (4, 22),
 (4, 24),
 (5, 26),
 (6, 21),
 (7, 26),
 (7, 20),
 (8, 24),
 (8, 25),
 (8, 23),
 (9, 20),
 (9, 28),
 (9, 21)])

from scipy.spatial.distance import pdist, squareform
c_mat = squareform(pdist(test, metric = 'chebyshev')) <= 1

现在 c_mat基本上是一个连接的节点图，如果它们在每个方向上相距 <1

要找到完整的不连通图，您可能可以在 networx 中执行快速操作。，但我将在 numpy 中以稍微困难的方式进行因为我不知道要在那里寻找哪些图论关键字。

out = np.ones((c_mat.shape[0], 2))
while out.sum(0).max() >1:
    c_mat = c_mat @ c_mat
    out = np.unique(c_mat, axis = 0)

现在 c_mat是 True如果有任何连接两行的链，和 out是所有单独组的 bool 索引。现在返回结果:

for mask in list(out):
    print(np.unique(test[mask], axis = 0))

[[ 9 28]]
[[ 9 20]
 [ 9 21]]
[[ 7 26]
 [ 8 23]
 [ 8 24]
 [ 8 25]]
[[ 6 21]
 [ 7 20]]
[[ 4 27]
 [ 4 28]
 [ 5 26]]
[[ 3 25]
 [ 4 22]
 [ 4 23]
 [ 4 24]]
[[ 2 23]]
[[ 1 21]]
[[ 1 27]]

您还可以使用这些 bool 索引来访问原始 DataFrame 中的数据行。

编辑 1:

现在，我们可以利用输入是半排序的这一事实来大大加快速度。但要做到这一点，我们需要 numba

from numba import jit

@jit
def find_connected(data, dist = 1):
    i = list(range(data.shape[0]))
    j = list(range(data.shape[0]))
    l = data.shape[0]
    for x in range(1, l):
        for y in range(x, l):
            v = np.abs(data[x] - data[y])
            if v.max() <= dist:
                i += [x, y]
                j += [y, x]
            if v.min() > dist:
                break
    d = [1] * len(i)
    return (d, (i, j))

现在我们需要将它加载到一个稀疏矩阵中

from scipy.sparse import csr_matrix

c_mat =  csr_matrix(find_connected(test), dtype = bool)

csr点积的速度要快得多，所以 c_mat = c_mat @ c_mat有效，但停止标准中断。您可以使用 Anreas K. 的出色回答 here ，或者只是做 out = np.unique(c_mat.todense(), axis = 0) .

编辑 2:

在我没有制作密集矩阵的情况下解决它之前，我无法解决这个问题。

import numba as nb
import numpy as np
@nb.njit
def find_connected_semisort(data, dist = 1):
    l = data.shape[0]
    out = []
    for x in range(l):
        for y in range(x, l):
            v = np.abs(data[x] - data[y])
            if v.max() <= dist:
                out.append(set([x, y]))
            if v.min() > dist:
                break
    outlen = len(out)
    for x in range(outlen):
        for y in range(x + 1, outlen):
            if len(out[x] & out[y]) > 0:
                out[y] |= out[x]
                out[x].clear()
    return [list(i) for i in out if len(i) > 0]

[np.unique(test[i], axis = 0).squeeze() for i in find_connected_semisort(test)]
Out[]: 
[array([ 1, 27]), array([ 1, 21]), array([ 2, 23]), array([[ 3, 25],
    [ 4, 22],
    [ 4, 23],
    [ 4, 24]]), array([[ 4, 27],
    [ 4, 28],
    [ 5, 26]]), array([[ 6, 21],
    [ 7, 20]]), array([[ 7, 26],
    [ 8, 23],
    [ 8, 24],
    [ 8, 25]]), array([ 9, 28]), array([[ 9, 20],
    [ 9, 21]])]

可能有一些方法可以在没有两个循环的情况下做到这一点，但我无法理解。

关于python - 按多列对数据框中的连续条目进行聚类/分组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59673455/

29

4

0

文章推荐： reactjs - 为什么这个日期总和在 react 中没有正确显示？

文章推荐： reactjs - 如果使用 Context API，我是否使用 PropTypes

文章推荐： apache-kafka - Kafka 滚动重启主动 Controller 最后的性能优势

Jquery检查元素是否隐藏(连续)
如何检查一个元素是否立即隐藏。即如何通知元素的可见性。在我的例子中，该元素是通过 slideUp 函数隐藏的。我应该立即收到有关该元素的可见性的通知。我想到了使用bind()方法。但它没有类似 o
连续 if 语句流程
if (srcbloc == NULL) { fprintf(stderr, "warning!: memrip source is null!\n"); exit(1); } if
SQL - 连续 "ON"语句
当我在数据库的旧 View 中清理一些问题时，我遇到了这个“奇怪”的连接条件: from tblEmails [e] join tblPersonEmails [pe]
css - 如何水平对齐多个图像(连续)？
如何水平对齐多张图像，一张一张地？它们不必适合宽度屏幕:相反，我希望它们超过后者的宽度，如果这有任何意义的话。我已经检查了很多类似问题的答案，但找不到任何可以解决我的问题的答案。 HTML:
Cassandra ttl 连续
我知道 Cassandra 中的列有 TTL。但是也可以在一行上设置 TTL 吗？在每列上设置 TTL 并不能解决我的问题，如下面的用例所示: 在某些时候，一个进程想要删除一个带有 TTL 的完整行(
macos - 连续 NSTextField
我有一个 NSTextField 和 Label，其值绑定(bind)到 View Controller 中的相同 NSString 这里的问题是标签只有在我按 Tab 时才会更新。如何使其连续，以
javascript - 在字符串中插入下划线代替单个或多个空格(连续)
例如。 1."abc"; ===>abc 2."ab c"; ===>ab_c 3."ab c"; ===>ab_c 4."ab c" ===>ab_c 对于多个连续空格也是如此。我怎样
javascript - 如何获取前一天(连续)
大家好，我想获取前一天或最后一天的信息，只有当我按下按钮时，它才会显示最后一天(星期六)的所有信息，如果我再次单击按钮，它将显示最后一天的信息(星期五)如果我再次点击它(星期四)谢谢你们帮助我编辑:
audio - 使用mplayer从音频流中提取冰冷的元数据(连续)
我需要从实时音频流中提取ICY元数据，并正在使用mplayer进行此操作，因为它在播放音频流时会输出元数据。我欢迎其他方式执行此操作，目标是将更新的元数据(歌曲信息)保存到文本文件中，只要歌曲(或数据
web - (连续)网络浏览器中有限单词的语音识别
语音识别有没有解决方案只有几个字(2 个就够了，10 个就不错了。100 个就很棒了。不需要更多) 也在移动浏览器上运行(是否可以为此使用 flash(而不是 java)？) 可以安装在您自己的服务
Python条件连接不以标点符号结尾的*连续*字符串
我有一个单词列表， list1 = ['hello', 'how', 'are', 'you?', 'i', 'am', 'fine', 'thanks.', 'great!'] 我想加入， list
连续 "undefined reference to..."
我正在开发一个程序，但我不断收到“对‘dosell’的 undefined reference ”，我不太明白发生了什么。这是函数的声明: void dosell(int *cash, int *nu
MYSQL - 连接三个表(连续？)
我无法提出执行我要做的事情所需的查询。我有三个这样的表: client_files ----------------------- client_id file_id ---------
javascript - 连续/无限滚动
我一直在寻找一个插件/脚本，当到达底部时，它会从头开始继续滚动网站，就像一个连续的循环。示例:http://unfold.no/和 http://www.aquiesdonde.com.ar/ 我尝
连续 scanf 正在添加字符串
这个问题在这里已经有了答案: How to prevent scanf causing a buffer overflow in C? (6 个答案) 关闭 6 年前。我一直在使用一个非常简单的程
c++ - 子数组中两个数字的相同出现(连续)
给定一个整数数组，找到具有相同数量的 x 和 y 的连续子序列的总数。例如 x=1 和 y=2 的数组 [1,2,1] ans = 2 表示它的两个子数组 [1,2] 和 [2,1]。检查每个连续的子
arrays - 查找总和小于给定值的最大元素(连续)？
所以，我有一个所有正自然数的数组。我得到了一个阈值。我必须找出总和小于给定阈值的数字(连续)的最大计数。 For example, IP: arr = {3,1,2,1} Threshold = 5
java - 如何像内置相机一样实现Android相机对焦(连续)
我制作了像内置相机一样的相机应用。我想实现像内置相机一样的连续对焦功能。(此功能我不触摸屏幕，但相机会尝试自行对焦。) 因此，将其设置为 surfaceCreated : Camera.Pa
r - 连续 block 上的平均
我有这样的数据: f x A 1.1 A 2.2 A 3.3 B 3.5 B 3.7 B 3.9 B 4.1 B 4.5 A 5.1 A 5.2 C 5.4 C 5.5 C 6.1 B 6.2 B
sql - 连续 n 分钟超过阈值
假设我有一个包含一组数据点的表，每个数据点由一个时间戳和一个值组成。如果至少有 N 个连续记录(按时间戳排序)高于给定值 X，我将如何编写返回 true (1) 的查询，否则返回 false (0)？

首页

博学

6Ren·AI

商城

python - 按多列对数据框中的连续条目进行聚类/分组