- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
输入
Name A B C
0 aa 0.002667 2.5 13.5
1 bb 0.003400 2.5 13.7
2 cc 0.003600 1.0 13.6
3 dd 0.003667 1.0 13.6
4 aa 0.003667 1.0 13.6
5 bb 0.007600 1.0 13.6
6 cc 0.007000 1.0 13.6
7 dd 0.007000 1.0 13.6
允许的公差:
A B C
0 0.003 0.2 0.2
我必须找到具有上述公差表的重复项,并且需要将重复项映射到下面的集合中
预期输出:
Name A B C Set
0 aa 0.002667 2.5 13.5 1
1 bb 0.003400 2.5 13.7 1
2 cc 0.003600 1.0 13.6 2
3 dd 0.003667 1.0 13.6 2
4 aa 0.003667 1.0 13.6 2
5 bb 0.007600 1.0 13.6 3
6 cc 0.007000 1.0 13.6 3
7 dd 0.007000 1.0 13.6 3
最佳答案
这是一种相对较快的方法,并且可以适用于其他邻近查询类型(例如,查找彼此之间在欧氏距离内的点集)。它以传递的方式处理接近度:如果 a
在 b
的公差范围内,并且 b
在 c
的公差范围内>,那么所有的a
,b
,c
都被分配给同一个set_id
,不管是否>a
在 c
的公差范围内。这相当于 single-linkage clustering ,但无需计算 O[n^2]
距离矩阵即可完成。
它使用了两个重要的工具:
scipy.spatial.KDTree
加快寻找给定距离内的邻居。
networkx
在邻居中找到孤立的子图。
注意 p-范数:我们对这个问题的理解是标记所有中彼此接近的点对的尺寸。相反,如果目标是在任何 维度中找到容差范围内的邻居,则改用p=1
。对于轴 tol
彼此位于椭圆体内的点(即缩放问题中的球体),则使用 p=2
。
关于速度的注意事项:如果邻居的总数(彼此容差范围内的点对数)很小,这是有效的。在所有点彼此接近的极端情况下,那么这里介绍的方法是O[n^2]
,其他方法(例如装箱)会更快。
import networkx as nx
from scipy.spatial import KDTree
def group_neighbors(df, tol, p=np.inf, show=False):
r = np.linalg.norm(np.ones(len(tol)), p)
kd = KDTree(df[tol.index] / tol)
g = nx.Graph([
(i, j)
for i, neighbors in enumerate(kd.query_ball_tree(kd, r=r, p=p))
for j in neighbors
])
if show:
nx.draw_networkx(g)
ix, id_ = np.array([
(j, i)
for i, s in enumerate(nx.connected_components(g))
for j in s
]).T
id_[ix] = id_.copy()
return df.assign(set_id=id_)
df = pd.DataFrame({
'Name': ['aa', 'bb', 'cc', 'dd', 'aa', 'bb', 'cc', 'dd'],
'A': [0.002667, 0.0034, 0.0036, 0.003667, 0.003667, 0.0076, 0.007, 0.007],
'B': [2.5, 2.5, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0],
'C': [13.5, 13.7, 13.6, 13.6, 13.6, 13.6, 13.6, 13.6]},
)
tol = pd.Series([0.003, 0.2, 0.2], index=list('ABC'))
>>> group_neighbors(df, tol)
Name A B C set_id
0 aa 0.002667 2.5 13.5 0
1 bb 0.003400 2.5 13.7 0
2 cc 0.003600 1.0 13.6 1
3 dd 0.003667 1.0 13.6 1
4 aa 0.003667 1.0 13.6 1
5 bb 0.007600 1.0 13.6 2
6 cc 0.007000 1.0 13.6 2
7 dd 0.007000 1.0 13.6 2
奖励:显示邻居图:
_ = group_neighbors(df, tol, show=True)
在此示例中,我们将 A
替换为单调序列 [0, 0.1, 0.2, ...]
,这样每对连续点的距离为 0.1
。我们还给出了 A=0.12
的公差:
>>> group_neighbors(
... df.assign(A=np.arange(0, df.shape[0]) * 0.1),
... tol=pd.Series([0.12], index=['A']), show=True)
Name A B C set_id
0 aa 0.0 2.5 13.5 0
1 bb 0.1 2.5 13.7 0
2 cc 0.2 1.0 13.6 0
3 dd 0.3 1.0 13.6 0
4 aa 0.4 1.0 13.6 0
5 bb 0.5 1.0 13.6 0
6 cc 0.6 1.0 13.6 0
7 dd 0.7 1.0 13.6 0
>>> group_neighbors(
... df.assign(A=np.arange(0, df.shape[0]) * 0.1),
... tol=pd.Series([0.21], index=['A']), show=True)
Name A B C set_id
0 aa 0.0 2.5 13.5 0
1 bb 0.1 2.5 13.7 0
2 cc 0.2 1.0 13.6 0
3 dd 0.3 1.0 13.6 0
4 aa 0.4 1.0 13.6 0
5 bb 0.5 1.0 13.6 0
6 cc 0.6 1.0 13.6 0
7 dd 0.7 1.0 13.6 0
以下是该算法采取的各个步骤:
r=1
内的所有点对; 注意:我们使用 p-norm Infinite,所以区域是超立方体;这对应于在彼此的 tol
边界框内找到所有点;int
标记集合(来自 enumerate()
)。让我们逐步检查 OP 示例中发生的情况。
首先,选择单位公差的相关尺寸和刻度:
>>> df[tol.index] / tol
A B C
0 0.889000 12.5 67.5
1 1.133333 12.5 68.5
2 1.200000 5.0 68.0
3 1.222333 5.0 68.0
4 1.222333 5.0 68.0
5 2.533333 5.0 68.0
6 2.333333 5.0 68.0
7 2.333333 5.0 68.0
在这种缩放之后,任务变成了寻找在任何维度上的差异最多为 1 的任何一对点。
使用 KDTree
可以快速找到邻居。 注意:我们使用 kd.query_ball_tree
而不是 kd.query_pairs
因为我们也想保留单例(例如:仅与他们自己),以便他们可以在最终输出中获得自己的 set_id
:
kd = KDTree(df[tol.index] / tol)
>>> kd.query_ball_tree(kd, r=1, p=np.inf)
[[0, 1],
[0, 1],
[2, 3, 4],
[2, 3, 4],
[2, 3, 4],
[5, 6, 7],
[5, 6, 7],
[5, 6, 7]]
然后从所有这些对构建图。
我们使用connected_components
来获取g
的所有相互隔离的子图:
>>> list(nx.connected_components(g))
[{0, 1}, {2, 3, 4}, {5, 6, 7}]
所以,我们有三个集合(孤立的子图)。然后我们可以为每个分配一个 ID,并返回结果。
关于python - 查找具有公差的重复项并分配给 Pandas 中的一个集合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69016985/
编辑:我似乎问错了这个问题。 我正在尝试寻找一种方法来查询一个集合是否在另一个集合中可用。例如: SELECT * FROM something WHERE (1, 3) IN (1, 2, 3, 4
这两种方法似乎 produce the same results ,但我一直很难真正说服人们第二种方法有效,因为它显然并不为人所知。 // Create some data var foo = { '
我一直在学习Kotlin,并且遇到过Collections API。在Kotlin之前,我一直在学习Java,并且我知道Java中有很多不同类型的Collections API。例如,我们使用List
为什么我会得到不同的行为: Collection col2 = new ArrayList(col); 集合 col2 = new ArrayList(); col2.addAll(col) 我正在与
所以我有一个代表专辑信息的 JSON 对象。给定“function updateRecords(id, prop, value)”我希望能够更新每个条目。正确的完成代码如下。 我得到了指示,粗体部分,
我想存储一个对象集合,这些对象根据它们所代表的值进行键控。这些键可以重复。例如: [4] => Bob [5] => Mary [5] => Sue [9] => Steve [10] =>
在检查 ArrayList API 时,我注意到一些看起来很奇怪的东西。 确实,这里是 ArrayList 构造函数实现,其中 Collection 作为参数传递: public ArrayList(
我正在为 API 编写一个 swagger 定义文件。 API 是用于 GET 请求的 /path/to/my/api: get: summary: My Custom API d
我知道scala.collection包中有两个非常有用的对象,可以帮助我们实现这个目标: JavaConverters(如果我想明确说明并准确说明我要转换的内容) JavaConversions(如
我已经阅读了无数其他帖子,但似乎无法弄清楚发生了什么,所以是时候寻求帮助了。 我正在尝试将包含集合的域实体映射到也包含集合的 dtos。 这是一个原始示例; (我提前为代码墙道歉,我尽量保持简短):
我正在创建一个具有 ArrayList 的类,因此当我调用构造函数时,它会初始化该数组: public class ElementsList { private ArrayList list;
我正在阅读事件指南和指南的开头,它说: You can also add an event listener to any element in the this.$ collection using
我是 Python 新手,想知道如何使用键在字典中存储不同数据类型的列表 例如 - {[Key1,int1,int1,String1] , [Key2,int2,int2,String2], [Key
int[] mylist = { 2, 4, 5 }; IEnumerable list1 = mylist; list1.ToList().Add(1); // why 1 does not get
我在 UI 表单中的每一行之后将以下内容添加到 HashMap 集合中 声明 Map> map = new HashMap>(); List valSetOne = new ArrayList();
我正在开发我的第一个 Java 项目,我有一个问题。问题应该很简单(虽然代码不是那么短,但没有理由被吓倒:))。我创建了一个基本的角色扮演游戏,并且有一个定义每个角色的抽象类“Character”。在
我正在开发一款应用程序,可以为用户收集推文、Facebook 状态和 Facebook 照片。目前,用户确切地设定了他们希望这种收获发生的时间和时间,并且蜘蛛会在此期间拉取数据。 when 和 to
有谁知道在 C# 中是否有与 Java 的 Set 集合等效的好方法?我知道您可以通过填充但忽略值来使用 Dictionary 或 HashTable 在某种程度上模仿集合,但这不是一种非常优雅的方式
EXISTS 该函数返回 集合中第一个元素的索引,如果集合为空,返回NULLNULLNULL Collecti
RDF集合是通过属性 rdf:parseType="Collection" 来描述仅包含指定成员的组 rdf:parseType="Collection" 属
我是一名优秀的程序员,十分优秀!