python - Pandas 检查平等性太慢而无法使用-6ren

python - Pandas 检查平等性太慢而无法使用

转载作者：太空宇宙更新时间：2023-11-04 07:57:14

24

4

我需要检查从一个 DataFrame 更改为另一个 DataFrame 的记录。它必须在所有列上匹配。

一个是excel文件(new_df)，一个是SQL查询(sql_df)。形状约为 20,000 行乘以 39 列。我认为这对 df.equals(other_df) 来说是一份好工作

目前我使用的是:

import pandas as pd
import numpy as np
new_df = pd.DataFrame({'ID' : [0 ,1, 2, 3, 4, 5, 6, 7, 8, 9], 
                    'B' : [1,0,3,5,0,0,np.NaN,9,0,0], 
                    'C' : [10,0,30,50,0,0,4,10,1,3], 
                    'D' : [1,0,3,4,0,0,7,8,0,1],
                    'E' : ['Universtiy of New York','New Hampshire University','JMU','Oklahoma State','Penn State',
                          'New Mexico Univ','Rutgers','Indiana State','JMU','University of South Carolina']})

sql_df= pd.DataFrame({'ID' : [0 ,1, 2, 3, 4, 5, 6, 7, 8, 9], 
                    'B' : [1,0,3,5,0,0,np.NaN,9,0,0], 
                    'C' : [10,0,30,50,0,0,4,10,1,0], 
                    'D' : [5,0,3,4,0,0,7,8,0,1],
                    'E' : ['Universtiy of New York','New Hampshire University','NYU','Oklahoma State','Penn State',
                          'New Mexico Univ','Rutgers','Indiana State','NYU','University of South Carolina']})

# creates an empty list to append to
differences = []
# for all the IDs in the dataframe that should not change check if this record is the same in the database
# must use reset_index() so the equals() will work as I expect it to
# if it is not the same, append to a list which has the Aspn ID that is failing, along with the columns that changed
for unique_id in new_df['ID'].tolist():
# get the id from the list, and filter both sql and new dfs to this record
    if new_df.loc[new_df['ID'] == unique_id].reset_index(drop=True).equals(sql_df.loc[sql_df['ID'] == unique_id].reset_index(drop=True)) is False:
        bad_columns = []
        for column in new_df.columns.tolist():
        # if not the same above, check which column using the same logic
            if new_df.loc[new_df['ID'] == unique_id][column].reset_index(drop=True).equals(sql_df.loc[sql_df['ID'] == unique_id][column].reset_index(drop=True)) is False:
                bad_columns.append(column)                            
        differences.append([unique_id, bad_columns])

我稍后会使用 differences 和 bad_columns 并用它们做其他任务。

我希望避免许多循环...因为这可能是我的性能问题的原因。目前 20,000 条记录需要超过 5 分钟(因硬件而异)，这是糟糕的性能。我正在考虑将所有列添加/连接成一个长字符串以进行比较，但这似乎是另一种低效的方法。解决这个问题的更好方法是什么/我怎样才能避免这种困惑的附加到空列表解决方案？

最佳答案

In [26]: new_df.ne(sql_df)
Out[26]:
       B      C      D      E     ID
0  False  False   True  False  False
1  False  False  False  False  False
2  False  False  False   True  False
3  False  False  False  False  False
4  False  False  False  False  False
5  False  False  False  False  False
6   True  False  False  False  False
7  False  False  False  False  False
8  False  False  False   True  False
9  False   True  False  False  False

显示不同的列:

In [27]: new_df.ne(sql_df).any(axis=0)
Out[27]:
B      True
C      True
D      True
E      True
ID    False
dtype: bool

显示不同的行:

In [28]: new_df.ne(sql_df).any(axis=1)
Out[28]:
0     True
1    False
2     True
3    False
4    False
5    False
6     True
7    False
8     True
9     True
dtype: bool

更新:

显示不同的细胞:

In [86]: x = new_df.ne(sql_df)

In [87]: new_df[x].loc[x.any(1)]
Out[87]:
    B    C    D    E  ID
0 NaN  NaN  1.0  NaN NaN
2 NaN  NaN  NaN  JMU NaN
6 NaN  NaN  NaN  NaN NaN
8 NaN  NaN  NaN  JMU NaN
9 NaN  3.0  NaN  NaN NaN

In [88]: sql_df[x].loc[x.any(1)]
Out[88]:
    B    C    D    E  ID
0 NaN  NaN  5.0  NaN NaN
2 NaN  NaN  NaN  NYU NaN
6 NaN  NaN  NaN  NaN NaN
8 NaN  NaN  NaN  NYU NaN
9 NaN  0.0  NaN  NaN NaN

关于python - Pandas 检查平等性太慢而无法使用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46717880/

24

4

0

文章推荐： python - python中有枚举器查找方法吗？

文章推荐： C Linux编程-管道使子进程退出

文章推荐： c - 如何在 makefile 中添加相互依赖的库

文章推荐： python - 将 pandas 列转置为一行，使用另一列作为索引

cudaMemcpy 太慢
我用 cudaMemcpy()一次将 1GB 的数据精确复制到设备。这需要 5.9 秒。反之则需要 5.1 秒。这是正常的吗？函数本身在复制之前有这么多开销吗？理论上，PCIe 总线的吞吐量至少应为
Javascript 太慢？
我正在尝试读取图像的大小并在其高度大于 150 时调整其边距。但是在运行这段代码时，我总是在控制台中得到一个“0”: var coverImg; coverImg =
iphone - writeImageToSavedPhotosAlbum 太慢？
我正在开发一个 iPhone 应用程序，其中包含一些标准的“相机”功能。保存到相机胶卷真的太慢了，在iPhone 4上大约需要四秒钟。有什么办法可以提高速度吗？如果您查看默认的 iPhone 相
iphone - 转换为灰度 - 太慢
我创建了一个将图像转换为灰度的类。但它的工作速度太慢了。有没有办法让它运行得更快？这是我的类(class): @implementation PixelProcessing SYNTHESIZE_S
delphi - gethostbyaddr 太慢
我使用以下代码，结果是正确的，但 gethostbyaddr 需要大约 30 秒。 function IPAddrToName(IPAddr: string): string; var So
java - CopyOnWriteArrayList 太慢
我有以下案例， public class Test { private static final int MAX_NUMBER = 10_00_00; public static vo
java - ucanaccess 太慢
我已经正确添加了所有必需的 JARS: Ucanaccess 3.0.4 commons-lang-2.6 commons-logging-1.1.1 hsqldbd jackcess-2.1.3 我
Python 多重处理 - 太慢
我为特定功能构建了一个多处理密码破解程序(使用单词列表)，与使用单个进程相比，它减少了一半的时间。最初的问题是，它会向您显示破解的密码并终止工作人员，但剩余的工作人员将继续工作，直到他们用完可哈希的
extjs - Sencha 太慢
我在我的一个 JSP 中引入了 Sencha 网格。本地 sencha 相当快，但在外部服务器上它太慢了。我在这里按照部署说明进行操作 http://docs.sencha.com/ext-js/4
php - 从另一个表中选择值 - 太慢
我的查询加载时间有很大问题。在这种情况下，我需要 hg_ft_won 列(表:值)中的值，用于 home_team_id 和 away_team_id(表:匹配)。它确实可以正常工作。加载只需要很长
C# QuickSort 太慢
我现在正在学习不同类型的排序，我发现，从某个点开始，我的快速排序算法根本无法快速工作。这是我的代码: class QuickSort { // partitioning arr
Java regexp OR 太慢
为什么要模式 [0123]123456|98765 比在 Java 中执行 [0123]123456 然后 98765 慢两倍？所以单独搜索它们比用 OR 执行更快。有人有解释吗？ UPD 查看带有结
Android Assets 太慢
我有带 Assets 的 Android 应用程序。它们包含 20,000 多个文件，其中大部分是简单的文本或 png 文件，分为不同的文件夹和子文件夹。1 个单个文件的最大大小为 500kb，其中
php - GROUP_CONCAT 太慢
您好，我在查询中添加了 GROUP_CONCAT 函数，该函数终止了我的查询:/。我的查询是: SELECT u.username,a.user_id,a.id,a.text,a.lang as fr
PostgreSQL SELECT 太慢
我正在寻找优化查询的想法。目前，我有一个 4M 行的表，我只想检索引用的最后 1000 行: SELECT * FROM customers_material_events WHERE refere
ios - NSURLConnection 太慢
我在我的应用程序中使用 NSURLConnection，我在其中扫描条形码，通过 NSURLConnection 发送 XML，Java 服务向我发回 XML。我的问题是，使用 Wifi 时，响应时间
java - CopyOnWriteArraySet 太慢
当我运行以下程序时，执行大约需要 7 到 8 分钟。我真的不确定我哪里弄错了，因为这个程序执行起来要花很多时间。 public class Test { public stat
ios - NSFetchedResultsController 太慢
我正在使用 NSFetchResultsController 从数据库中接收项目(有 80.000 个项目)。这是我的谓词:@"(desc CONTAINS[cd] %@)", [any text]
Python fmin 太慢
我在 x_data 中有一个 3x2000 numpy 数组，在 y_data 中有一个 1x2000 numpy 数组，我将其传递给此函数 regress 以给我一条回归线。它工作正常。问题是我正在
c++ - cvtColor 太慢
我正在做一个项目，我需要改变图像的亮度和对比度，它是亮度而不是亮度。所以我一开始的代码是 for (int y = 0; y (y, x); // read pixel (0,0)

首页

博学

6Ren·AI

商城

python - Pandas 检查平等性太慢而无法使用