python - 计算列表与列表的 pandas 列的交集长度-6ren

python - 计算列表与列表的 pandas 列的交集长度

转载作者：行者123 更新时间：2023-12-02 19:39:53

26

4

我有一个唯一随机整数列表和一个包含一列列表的数据框，如下所示:

>>> panel
    [1, 10, 9, 5, 6]

>>> df
       col1 
    0  [1, 5]
    1  [2, 3, 4]
    2  [9, 10, 6]

我想要的输出是 panel 和数据框中每个单独列表之间重叠的长度:

>>> result
       col1        res
    0  [1, 5]      2
    1  [2, 3, 4]   0
    2  [9, 10, 6]  3

目前，我正在使用 apply 函数，但我想知道是否有更快的方法，因为我需要创建很多面板并为每个面板循环执行此任务。

# My version right now
def cntOverlap(panel, series):
    # Typically the lists inside df will be much shorter than panel, 
    # so I think the fastest way would be converting the panel into a set 
    # and loop through the lists within the dataframe

    return sum(1 if x in panel for x in series)
    #return len(np.setxor1d(list(panel), series))
    #return len(panel.difference(series))


for i, panel in enumerate(list_of_panels):
    panel = set(panel)
    df[f"panel_{i}"] = df["col1"].apply(lambda x: cntOverlap(panel, x))

最佳答案

由于每行的可变长度数据，我们需要在 Python 中进行迭代(显式或隐式，即在幕后)。但是，我们可以优化到每次迭代计算最小化的水平。遵循这种理念，这里有一个带有数组分配和一些掩码的 -

# l is input list of unique random integers
s = df.col1
max_num = 10 # max number in df, if not known use : max(max(s))
map_ar = np.zeros(max_num+1, dtype=bool)
map_ar[l] = 1
df['res'] = [map_ar[v].sum() for v in s]

或者使用 2D 数组分配来进一步最小化每次迭代计算 -

map_ar = np.zeros((len(df),max_num+1), dtype=bool)
map_ar[:,l] = 1
for i,v in enumerate(s):
    map_ar[i,v] = 0
df['res'] = len(l)-map_ar.sum(1)

关于python - 计算列表与列表的 pandas 列的交集长度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60421046/

26

4

0

文章推荐： linux - 如何使用 AWK 或 SED 提取值大于数字的字段

文章推荐： sql - 在 BigQuery 中随机抽样替换的最有效方法是什么？

文章推荐： java - @JsonIgnore 有条件

MySQL 交集
我有一个现有站点，其数据库设计不正确并且包含大量记录，因此我们无法更改数据库结构。本期数据库主要包含用户、问题、选项、答案4个表。有一组标准的问题和选项，但对于每个用户，每组问题和选项在答案表中都有
iphone - CGPathRef 交集
有没有办法找出两个 CGPathRef 是否相交。就我而言，所有 CGPath 都有 closePath。例如，我有两条路径。一条路径是旋转一定角度的矩形，另一条路径是弯曲路径。两条路径的原点会经常
形状和多边形的 JavaFX 交集
我目前正在使用 JavaFX 研究不同形状之间的边界相交。我想检测两个多边形在它们的点上而不是在它们的边界上的碰撞(即 2 个多边形)。请参见图 1:不需要的行为和图 2:需要的行为。是否有任何现
三.js/交集
在我的three.js 场景中，我有一些立方体。我想为用户提供用鼠标选择框的可能性。这是重要的代码(我使用 Three.js 版本 69。): function init() { [...]
c++ - 几何、交集
我有一个问题。我想将四边形与四边形相交。 int main(){ typedef boost::geometry::model::point_xy TBoostPoint; typedef b
具有时间范围的 Mongodb 交集
在 MongoDB 中我们找到了交集的方法，但我们也想实现日期范围排除。让我解释一下。我们有每个支持团队的每日轮值表。每个支持团队可以每 15 分钟预订一次，持续 5-25 分钟(大约)。每个团队有
Python代码列表求并集,交集,差集
目录 1、列表求并集 1. union_by 2、列表求交集 1. intersection_by
sql - 有或没有不同的 oracle 交集
我有以下查询: select id from t1 intersect select id from t2 intersect select id from t3 id 在某些表中可能不是唯一的，所以
java - 需要求基本运算集并集/交集/对称差JAVA
需要完成此实现才能使用 UseSet 类。不确定我所实现的是否100%正确。但是我需要 Union 和 SysDiff 方面的帮助。 public class Set { private Ar
java - 优先级队列并集、交集、差异编译但不返回输出
我的程序打印主构造函数，但不返回 3 个底部函数，而是返回其编译结果。我哪里出错了？ import java.util.*; public class Main { public static v
2 个列表列表的 Prolog 交集
我正在尝试找到两个不同列表列表的交集。换句话说，找出 list1 中的所有列表是否与列表 2 中的任何列表相交。列表1: [[1,4],[1,6],[6,8],[8,10]] 列表2: [[],
java - BST 交集、NullPointerException
我正在尝试从 2 个已知 BST 的交集创建一个新的 BST。我在第二种情况下的 intersect2 方法中收到 NullPointerException，位于“cur3.item.set_acco
C 结构体 NxN 交集
这个问题已经有答案了: self referential struct definition? (9 个回答) 已关闭 7 年前。我有一个脚本 a.h #include b.h type
未使用 MySQL 复合索引(交集)
我在 user_profile 表上运行搜索，其中包含单个索引和复合索引: SELECT ••• FROM user_profile up JOIN auth_user
sql - 子查询中的 MySQL 交集
我正在尝试为(公寓)列表创建过滤器，通过 apartsments_features 表与 apartment features 建立多对多关系。我只想包括具有所有某些功能(在表格上标记为"is")的
Python - 列表的最大公共(public)交集
我想从两个给定的嵌套列表中创建一个新的嵌套列表(每个列表中都有唯一的项目)，以便新的嵌套列表是两个列表的最大公共(public)交集。一个例子希望能帮助阐明我的问题: old1 = [[1,
python - 相似属性上两个查询集的 Django 交集
我在 Django 中有两个模型，我不确定如何编写它们(是否有一个抽象模型并继承等等......或者有两个不同的模型)但通常我有两种类型的对象 A 和 B。 A 和 B 完全相同，因为它们只是项目。它
javascript - 解析数组的数组并返回公共(public)交集
我有一个像这样的数组 arrays = [ ['a', 'b', 'c', 'd'], ['a', 'b', 'c', 'g'], ['a',
java - 多边形的 Libgdx 交集
我正在通过向 Mario Zechner 的开源跳线游戏添加更多功能来学习 libgdx。我正在尝试制作一些带有角度的平台并遇到旋转矩形的碰撞检测问题。我关注了this解决方案并使用多边形和我的矩形
javascript - 将数组数组传递到 lodash 交集
我有一个包含对象的数组: let data = [[{a:0}, {b:1}], [{a:1}, {b:1}]] 现在我想制作一个 lodash intersection这两个数组，返回 [{b:1}

首页

博学

6Ren·AI

商城

python - 计算列表与列表的 pandas 列的交集长度