- html - 我的下拉菜单的内容关闭得太快
- c# - 使用 Html Agility Pack 从网页中的表中获取值而不使用 "SelectNode'
- html - 内容容器下的 CSS 下拉菜单
- html - 如何停止嵌套列表重叠父列表?
题
假设我有 k 个标量列,如果它们沿着每列彼此在一定距离内,我想对它们进行分组。
假设简单 k 是 2 并且它们是我唯一的列。
pd.DataFrame(list(zip(sorted(choices(range(0,10), k=20)), choices(range(20,29), k=20))), columns=['a','b'])
[(1, 27),
(1, 27),
(1, 21),
(2, 23),
(3, 25),
(4, 23),
(4, 28),
(4, 27),
(4, 22),
(4, 24),
(5, 26),
(6, 21),
(7, 26),
(7, 20),
(8, 24),
(8, 25),
(8, 23),
(9, 20),
(9, 28),
(9, 21)]
a
中的条目最多
m
分开AND列
b
最多
n
分开。如果
m
=
n
= 1,则聚类为:
(1, 27), (1, 27)
(1, 21)
(2, 23)
(3, 25), (4, 23), (4, 22), (4, 24)
(4, 28), (4, 27), (5, 26)
(6, 21), (7, 20)
(7, 26), (8, 24), (8, 25), (8, 23)
(9, 20), (9, 21)
(9, 28),
a, b, c, d, e = tee(range(10), 5)
next(b, None)
next(c, None);next(c, None)
next(d, None);next(d, None);next(d, None)
next(e, None);next(e, None);next(e, None);next(e, None)
list(zip(a, b, c, d, e))
[(0, 1, 2, 3, 4),
(1, 2, 3, 4, 5),
(2, 3, 4, 5, 6),
(3, 4, 5, 6, 7),
(4, 5, 6, 7, 8),
(5, 6, 7, 8, 9)]
最佳答案
首先,我们做pdist
与 metric = 'chebyshev'
test = np.array([(1, 27),
(1, 27),
(1, 21),
(2, 23),
(3, 25),
(4, 23),
(4, 28),
(4, 27),
(4, 22),
(4, 24),
(5, 26),
(6, 21),
(7, 26),
(7, 20),
(8, 24),
(8, 25),
(8, 23),
(9, 20),
(9, 28),
(9, 21)])
from scipy.spatial.distance import pdist, squareform
c_mat = squareform(pdist(test, metric = 'chebyshev')) <= 1
c_mat
基本上是一个连接的节点图,如果它们在每个方向上相距 <1
networx
中执行快速操作。 ,但我将在
numpy
中以稍微困难的方式进行因为我不知道要在那里寻找哪些图论关键字。
out = np.ones((c_mat.shape[0], 2))
while out.sum(0).max() >1:
c_mat = c_mat @ c_mat
out = np.unique(c_mat, axis = 0)
c_mat
是
True
如果有任何连接两行的链,和
out
是所有单独组的 bool 索引。现在返回结果:
for mask in list(out):
print(np.unique(test[mask], axis = 0))
[[ 9 28]]
[[ 9 20]
[ 9 21]]
[[ 7 26]
[ 8 23]
[ 8 24]
[ 8 25]]
[[ 6 21]
[ 7 20]]
[[ 4 27]
[ 4 28]
[ 5 26]]
[[ 3 25]
[ 4 22]
[ 4 23]
[ 4 24]]
[[ 2 23]]
[[ 1 21]]
[[ 1 27]]
DataFrame
中的数据行。
numba
from numba import jit
@jit
def find_connected(data, dist = 1):
i = list(range(data.shape[0]))
j = list(range(data.shape[0]))
l = data.shape[0]
for x in range(1, l):
for y in range(x, l):
v = np.abs(data[x] - data[y])
if v.max() <= dist:
i += [x, y]
j += [y, x]
if v.min() > dist:
break
d = [1] * len(i)
return (d, (i, j))
from scipy.sparse import csr_matrix
c_mat = csr_matrix(find_connected(test), dtype = bool)
csr
点积的速度要快得多,所以
c_mat = c_mat @ c_mat
有效,但停止标准中断。您可以使用 Anreas K. 的出色回答
here ,或者只是做
out = np.unique(c_mat.todense(), axis = 0)
.
import numba as nb
import numpy as np
@nb.njit
def find_connected_semisort(data, dist = 1):
l = data.shape[0]
out = []
for x in range(l):
for y in range(x, l):
v = np.abs(data[x] - data[y])
if v.max() <= dist:
out.append(set([x, y]))
if v.min() > dist:
break
outlen = len(out)
for x in range(outlen):
for y in range(x + 1, outlen):
if len(out[x] & out[y]) > 0:
out[y] |= out[x]
out[x].clear()
return [list(i) for i in out if len(i) > 0]
[np.unique(test[i], axis = 0).squeeze() for i in find_connected_semisort(test)]
Out[]:
[array([ 1, 27]), array([ 1, 21]), array([ 2, 23]), array([[ 3, 25],
[ 4, 22],
[ 4, 23],
[ 4, 24]]), array([[ 4, 27],
[ 4, 28],
[ 5, 26]]), array([[ 6, 21],
[ 7, 20]]), array([[ 7, 26],
[ 8, 23],
[ 8, 24],
[ 8, 25]]), array([ 9, 28]), array([[ 9, 20],
[ 9, 21]])]
关于python - 按多列对数据框中的连续条目进行聚类/分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59673455/
情况:我想从数据条目列表导航回我的 PageViewController。 before 和 previous 函数起作用 func pageViewController(pageViewContro
尊敬的 StackOverflow 用户 我有一个 gradle 项目,我想将其工件转换为 osgi 包。在这个包中,我有: 我不想导出的包(可能不会出现在 list 的 Export-Package
我为我的 PendingIntent 设置了一个警报。现在我想在我的 Activity 中显示是否设置了此警报。 Intent service = new Intent(context, MyServ
我有 2 个表、作者和书籍 authors 包含唯一的 IDauthorId 书籍也包含此作为外键 我需要知道书籍数量最多的作者。如果 2 个或更多作者并列最多书籍,我需要显示这两位作者 我已经能够通
我有一个名为 prospective_shop 的表,其中一个列名称是“用户名”。用户名未设置为主键,但我想删除所有具有重复用户名的行。我怎样才能以最快的方式做到这一点? 我尝试执行以下操作: ALT
我现在可以添加条目了。在我的应用程序中,用户可以在他的日历上输入约会/事件。但在他这样做之前,它应该向他显示他已经添加的事件。它应该从日历中获取事件并将其显示给他。这该怎么做?我被困在这部分。提前致谢
#include #include #include #include #include #include char *msg; ssize_t write_proc(struct file
我想将大于 1024 个字符的字符串传递到我的模块(文件系统)。由于内核参数限制为 1024 个字符,someone recommended改为使用 sysfs。 我试图包括 this example
我正在尝试使用 SQLAlchemy 构建以下查询(用作包含查询的子查询,该查询定义名为 tbl_outer 的别名): SELECT max(tbl.ts) AS max_1 FROM tbl WH
假设我有两张 map : Map map1 = Map.of( "a", "1", "b", "2", "c", "3", "x
通过简化示例,假设您有以下数据集: A B C Name Group Amount Dave A 2 Mike B 3 Adam C 4
我正在尝试在我的服务器上创建一个三级域虚拟主机。我希望配置设置正确,但我得到一个 ERR_NAME_NOT_RESOLVED错误。 我已经读到我必须在某处“添加 DNS 条目”以便解析名称,但我该怎么
我需要一个可用于在逗号分隔列表中查找第 N 个条目的正则表达式。 例如,假设此列表如下所示: abc,def,4322,mail@mailinator.com,3321,alpha-beta,43 .
GWT 应用程序(在 Eclipse 中开发)的源代码管理忽略文件中的典型条目是什么? 最佳答案 我会推荐: 你leave the eclipse files (.project, .classpat
我必须创建显示表 (Tbl) 中所有字段的输出,并创建一个额外的列来按月计算每个客户的累计总和(例如,如果客户在 4 月份有两次销售,新列将具有这些销售额和两行中任何先前销售额的总和)。我能做的就这么
文档 ( http://kubernetes.io/docs/user-guide/configmap/ ) 上用于使用值的示例基于 ConfigMap,其中每个数据条目都是一对/值。例子: apiV
我有一个奇怪的错字,我一遍又一遍地犯,而不是实际工作我的打字技巧,我想编辑我的 AutoHotkey 脚本来弥补这一点。 有时,当我输入大写字母时,我会点击:按钮并输入“I:”,我希望 AHK 仅用字
使用 lgdt 初始化 GDT 并将其加载到 GDTR 后,稍后如何更新 GDT? 如果我使用 sgdt 命令获取基地址,然后更新或添加条目,然后使用 lgdt 再次重新加载,我是否正确?还有其他方法
我有两个应用程序共享同一个数据库,即 API 和 MVC5 应用程序。两者都在本地主机上运行良好,但在部署到我的 Azure 帐户时出现此错误 Configuration Error Descrip
我正在尝试修剪我拥有的一些文件。我将为您保存到目前为止我编写的野兽,并通过提供虚构代码使其保持简单。 让我们来看看这个数组: [System.String[]]$Collection = 'Invit
我是一名优秀的程序员,十分优秀!