python - 使用 Pandas groupby 迭代和修改数据框-6ren

python - 使用 Pandas groupby 迭代和修改数据框

转载作者：太空宇宙更新时间：2023-11-03 15:09:31

24

4

我正在处理大量 1 的数组，需要系统地从数组的各个部分中删除 0。大数组由许多较小的数组组成，对于每个较小的数组，我需要系统地将其上下三角形替换为 0。例如，我们有一个数组，其中包含由索引值指示的 5 个子数组(所有子数组具有相同的列数):

     0    1    2
0  1.0  1.0  1.0
1  1.0  1.0  1.0
1  1.0  1.0  1.0
2  1.0  1.0  1.0
2  1.0  1.0  1.0
2  1.0  1.0  1.0
3  1.0  1.0  1.0
3  1.0  1.0  1.0
3  1.0  1.0  1.0
3  1.0  1.0  1.0
4  1.0  1.0  1.0
4  1.0  1.0  1.0
4  1.0  1.0  1.0
4  1.0  1.0  1.0
4  1.0  1.0  1.0

我希望在其上三角形和下三角形中修改每组行，以便生成的矩阵为:

      0    1    2
0  1.0  1.0  1.0
1  1.0  1.0  0.0
1  0.0  1.0  1.0
2  1.0  0.0  0.0
2  0.0  1.0  0.0
2  0.0  0.0  1.0
3  1.0  0.0  0.0
3  1.0  1.0  0.0
3  0.0  1.0  1.0
3  0.0  0.0  1.0
4  1.0  0.0  0.0
4  1.0  1.0  0.0
4  1.0  1.0  1.0
4  0.0  1.0  1.0
4  0.0  0.0  1.0

目前我只使用 numpy 来实现这个结果数组，但我认为我可以使用 Pandas 分组来加速它。实际上，我的数据集非常大，几乎有 500,000 行长。 numpy 代码如下:

import numpy as np

candidateLengths = np.array([1,2,3,4,5])
centroidLength =3

smallPaths = [min(l,centroidLength) for l in candidateLengths]

# This is the k_values of zeros to delete. To be used in np.tri
k_vals = list(map(lambda smallPath: centroidLength - (smallPath), smallPaths))
maskArray = np.ones((np.sum(candidateLengths), centroidLength))

startPos = 0
endPos = 0
for canNo, canLen in enumerate(candidateLengths):
    a = np.ones((canLen, centroidLength))
    a *= np.tri(*a.shape, dtype=np.bool, k=k_vals[canNo])
    b = np.fliplr(np.flipud(a))
    c = a*b

    endPos = startPos + canLen

    maskArray[startPos:endPos, :] = c

    startPos = endPos

print(maskArray)

当我在真实数据集上运行此命令时，执行时间大约为 5-7 秒。我认为这归因于这个巨大的 for 循环。如何使用 pandas 分组来实现更高的速度？谢谢

最佳答案

新答案

def tris(n, m):
    if n < m:
        a = np.tri(m, n, dtype=int).T
    else:
        a = np.tri(n, m, dtype=int)
    return a * a[::-1, ::-1]

idx = np.append(df.index.values, -1)
w = np.append(-1, np.flatnonzero(idx[:-1] != idx[1:]))
c = np.diff(w)
df * np.vstack([tris(n, 3) for n in c])

     0    1    2
0  1.0  1.0  1.0
1  1.0  1.0  0.0
1  0.0  1.0  1.0
2  1.0  0.0  0.0
2  0.0  1.0  0.0
2  0.0  0.0  1.0
3  1.0  0.0  0.0
3  1.0  1.0  0.0
3  0.0  1.0  1.0
3  0.0  0.0  1.0
4  1.0  0.0  0.0
4  1.0  1.0  0.0
4  1.0  1.0  1.0
4  0.0  1.0  1.0
4  0.0  0.0  1.0

旧答案

我定义了一些辅助三角形函数

def tris(n, m):
    if n < m:
        a = np.tri(m, n, dtype=int).T
    else:
        a = np.tri(n, m, dtype=int)
    return a * a[::-1, ::-1]

def tris_df(df):
    n, m = df.shape
    return pd.DataFrame(tris(n, m), df.index, df.columns)

然后

df * df.groupby(level=0, group_keys=False).apply(tris_df)

     0    1    2
0  1.0  1.0  1.0
1  1.0  1.0  0.0
1  0.0  1.0  1.0
2  1.0  0.0  0.0
2  0.0  1.0  0.0
2  0.0  0.0  1.0
3  1.0  0.0  0.0
3  1.0  1.0  0.0
3  0.0  1.0  1.0
3  0.0  0.0  1.0
4  1.0  0.0  0.0
4  1.0  1.0  0.0
4  1.0  1.0  1.0
4  0.0  1.0  1.0
4  0.0  0.0  1.0

关于python - 使用 Pandas groupby 迭代和修改数据框，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44345904/

24

4

0

文章推荐： python - 无法获取 Django 模板来打印格式化 JSON

文章推荐： python - 多源服务器简单开发http-proxy

文章推荐： c# - 带有延迟加载列表的并行 Foreach

MSSQL监控数据库的DDL操作(创建，修改，删除存储过程，创建，修改，删除表等)
前言：有时候，一个数据库有多个帐号，包括数据库管理员，开发人员，运维支撑人员等，可能有很多帐号都有比较大的权限，例如DDL操作权限(创建，修改，删除存储过程，创建，修改，删除表等），账户多了，管理
c - 下面的代码有什么问题？预期 X 由线程 Func 1 修改，随后 X 由线程 Func 2 修改
这个问题已经有答案了: Condition variable deadlock (2 个回答) 已关闭 5 年前。在研究多线程时，我编写了以下代码，但在屏幕上没有观察到输出。我在这里做错了什么？我期
修改.htaccess实现301域名重定向示例分享
复制代码代码如下: <IfModule mod_rewrite.c> RewriteEngineOn RewriteBase/ #将www.zzvips.com跳转到www.zzv
修改.htaccess实现子目录绑定示例分享
复制代码代码如下: <IfModule mod_rewrite.c> RewriteEngine On RewriteBase / # 把 www.zzvips.com
修改 Gateway和DNS的vbs脚本
复制代码代码如下: Const T_GATEWAY = "1.1.1.1" '网关 Const T_NEWDNS1 = "2.2.2.2" 'DNS1
ElasticSearch学习2 - 查询、修改
0. 修改索引大文本字段支持排序 PUT http://localhost:9200/lrc_blog/_mapping //请求体 { "properties": { "title": { "t
javascript - 修改 DOM
仅 react 当状态发生变化时重新渲染 . 那么为什么我会直接看到我对真实 DOM 所做的更改呢？我知道我正在修改真实的 DOM，但是当我根本没有改变状态时触发重新渲染的是什么。 import R
swiftui - 修改@FetchRequest
Xcode beta 5 推出 @FetchRequest对于 SwiftUI。我有一个 View ，它有一个 @FetchRequest . NSFetchRequest是在管理器中创建的，该管理
php - 修改/编译开源项目源代码的最佳方法是什么？
关闭。这个问题需要更多 focused .它目前不接受答案。想改进这个问题？更新问题，使其仅关注一个问题 editing this post . 7年前关闭。 Improve this questi
PHP preg_replace 修改
我有一个表达式[text][id]应替换为链接 text 解决方案是( id 是整数) $s = preg_replace("/\[([^\]]+)(\]*)\]\[([0-9]+)\]/","$1$
svn - 如何防止文件在颠覆中被提交/修改？
我在 repo 中有一个文件，我不想让任何人更新。我能做什么？最佳答案你想要svn锁:http://www.linxit.de/svnbook/en/1.2/svn.ref.svn.c.lock
powershell - 修改/转换选择对象中的数据
说我有项目 list 。我想导出到csv，但在此之前我想做一些计算/修改。基本上，设置如下所示: PS C:\Files> gci Directory: C:\Files Mode
Java API 修改
我有一个非常简单的问题 - 是否可以修改 Java API 的源代码，例如Junit，JABX ？我知道这似乎是一个非常愚蠢的问题，但它一直困扰着我一段时间。最佳答案如果您可以掌握源代码，那么请
r - 修改/添加列到嵌套的tibble
我有一个带有变量/列的小标题，其中包括不同形状的小标题列表。我想为其中一个变量中的每个(子)标题添加一个变量/列。例如此类数据 library("tibble") aaa aaa # A tibb
Javascript url 修改
我有几个菜单，可以在单击时向当前链接添加变量。这是一个例子: 1 2 3 x y z 我的问题是，如果我选择“y”2次，它会添加“&cord=y”2次。相反，我希望它替
.net - 修改.NET服务安装程序的安装路径
我有两个项目:一个服务项目和一个服务安装程序项目。服务项目具有适合我的产品的装配信息。它包括公司信息和正确的服务名称。一旦服务实际安装，所有这些似乎都会被忽略。安装服务时，它使用在服务安装程序的ini
perl - 修改$_的时候会出错吗？
以下代码何时可能产生副作用？ @some = map { s/xxx/y/; $_ } @some; perlcritic 将其解释为危险的，因为例如: @other = map { s/xxx/y/
java - 修改.class文件
我想知道以下哪种解决方案更好:我想修改一些 .class 文件，我意识到有两种方法可以做到这一点: 反编译.class文件，修改它，最后再次编译。 - 直接用十六进制编辑器修改。谢谢最佳答案在这
java - 修改 addMouseListener()
这是我的按钮代码 onclick 我希望我的程序等待用户单击一个 JPanel，并且当用户单击 JPanel 时，它应该在控制台上打印其名称。此按钮代码未显示输出 JPopupMenu popu
java - 修改/设置从访问器方法返回的字符串
我正在使用一个具有“getName()”方法的特定 API。 getName() 返回一个字符串。是否可以修改该字符串？ API 中不包含修饰符方法，并且 String getName() 返回的是私

首页

博学

6Ren·AI

商城

python - 使用 Pandas groupby 迭代和修改数据框