python - 我的数据清理脚本很慢，有什么改进的想法吗？-6ren

python - 我的数据清理脚本很慢，有什么改进的想法吗？

转载作者：行者123 更新时间：2023-12-01 01:31:37

26

4

我有一个数据(csv 格式)，其中第一列是纪元时间戳(严格递增)，其他列是累积行(仅递增或相等)。示例如下:

df = pandas.DataFrame([[1515288240, 100, 50, 90, 70],[1515288241, 101, 60, 95, 75],[1515288242, 110, 70, 100, 80],[1515288239, 110, 70, 110, 85],[1515288241, 110, 75, 110, 85],[1515288243,110,70,110,85]],columns =['UNIX_TS','A','B','C','D'])
df =
id    UNIX_TS  A   B   C  D
 0 1515288240 100 50  90 70
 1 1515288241 101 60  95 75
 2 1515288242 110 70 100 80
 3 1515288239 110 70 110 85
 4 1515288241 110 75 110 85
 5 1515288243 110 70 110 85

import pandas as pd
def clean(df,column_name,equl):
    i=0
    while(df.shape[0]-2>=i):
        if df[column_name].iloc[i]>df[column_name].iloc[i+1]:
            df.drop(df[column_name].iloc[[i+1]].index,inplace=True)
            continue
        elif df[column_name].iloc[i]==df[column_name].iloc[i+1] and equl==1:
            df.drop(df[column_name].iloc[[i+1]].index,inplace=True)
            continue
        i+=1

clean(df,'UNIX_TS',1)
for col in df.columns[1:]:
    clean(df,col,0)

df =
    id    UNIX_TS  A   B   C  D
     0 1515288240 100 50  90 70
     1 1515288241 101 60  95 75
     2 1515288242 110 70 100 80

我的脚本按预期工作，但速度太慢，任何人都有关于如何提高其速度的想法。

我编写了一个脚本，根据两条规则删除所有无效数据:

Unix_TS必须严格递增(因为它是一个时间，不能倒流或暂停)，
其他列正在增加并且可以是恒定的，例如在一行中它是 100，而下一行它可以 >=100 但不能小于。

根据规则，索引 3 和 4 无效，因为 unix_ts 1515288239 是 1515288241 小于索引 2。索引 5 是错误的，因为 B 值减少了

最佳答案

IIUC，可以使用

cols = ['A', 'B', 'C', 'D']
mask_1 = df['UNIX_TS'] > df['UNIX_TS'].cummax().shift().fillna(0)
mask_2 = mask_2 = (df[cols] >= df[cols].cummax().shift().fillna(0)).all(1)

df[mask_1 & mask_2]

输出

    UNIX_TS     A   B   C   D
0   1515288240  100 50  90  70
1   1515288241  101 60  95  75
2   1515288242  110 70  100 80

关于python - 我的数据清理脚本很慢，有什么改进的想法吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52808839/

26

4

0

文章推荐： asp.net-mvc - ASP.NET MVC 表单处理未知数量的输入

文章推荐： jquery - data-parent 属性在崩溃 Bootstrap v4-alpha 上不起作用

文章推荐： maven-2 - Maven - 将 XSD 作为依赖项

文章推荐： jquery - Scrollify 让每个页面都具有动画效果

javascript - 集中统一调用函数的解决方案/想法
所以这个有点难以解释，但我会尝试一下: 我有一个带有 .boxes 类的 div。它是一些循环元素的包装。循环元素具有类.box。在这个元素中，还有两个元素。一种是 .box-header 类的 he
css - 页眉背景图像未按我的预期调整大小 - 想法？
我有一个网站，我试图在调整浏览器窗口大小时使其表现得体。例如，我希望在有人缩小浏览器窗口时调整横幅图像的大小。网址是http://www.pfp-consortium.org 顶部的横幅在 CSS 中
jquery - 想法 - 最好让所有元素都在表格中或一秒钟后将它们添加到那里？
我想知道情况，是将所有可能的元素都放在表单中更好，还是在用户需要时立即将元素添加到表单中更好。我将尝试对其进行更多解释 - 我的表单具有 4 个输入和一个文本区域。然后我提供了可选值(大约 15 -
android - 锁定安卓应用程序。想法？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
用于存储未读帖子和通知的 PHP 想法
所以我一直在研究我正在构建的一个论坛，并且一直专注于它的一个方面，即如何在不在数据库中存储大量数据的情况下跟踪未读的帖子和通知。在查看了一些解决方案之后，我相信我想出了一个可能适合我需要的解决方案，但
java - 使支持应用程序更容易的指南/想法
编写一个高质量的软件应该是第一步。现在这是一个移动的目标。(我们有一些类似于 https://stackoverflow.com/questions/3716203/automatic-code-qu
c++ - 二维点集的压缩 - 想法？
我有一组存储在数组中的二维点。我需要尽可能多地压缩它。最好是快速，但不要破坏交易，压缩率是目标。规则是: 一个点=一个32位的结构，存储为(x,y)，每个坐标2个字节坐标 = 8 位整数部分和 8
android - 数据库在我的应用程序下载后似乎消失了。想法？
我的一个应用程序从服务器下载数据库。当我将应用程序安装到我的手机上时，它会正确下载文件并加载信息，没有抛出任何异常或任何东西。但是，当我将 apk 上传到 Android Market Place
javascript - 客户网站上的恶意软件 - 想法？
我们最近接到一位客户的电话，提示他们网站的页面底部有一些“看起来很奇怪的代码”。我们查看了源代码，发现 templates/master 中附加了大约 800 字节的恶意 javascript 代码。
system-restore - 创建系统还原点 - 想法？
以编程方式创建系统还原点是“禁忌”吗？我会在执行软件更新之前执行此操作。如果有更好的方法可以仅使用我的软件文件和数据创建还原点，请告诉我。我想要一种方法，如果在更新期间一切都发生了故障(关闭/终止更
ruby-on-rails - 跟踪类实例及其关联的更改 - 想法？
我有一个有很多相关模型的类问题。在我的应用程序的一个页面上，我列出了所有当前问题的摘要，以及来自相关记录的各种信息。最终，这是一个值的散列，然后我将其打印到一个 csv 样式的行中(从这里我将其称为“
objective-c - NSClassFromString 想法
我目前正在尝试从 NSClassFromString(NSString *) 方法创建对象。我希望能够实现的是以下... NSClassFromString(stringType) *pageCon
scala - 是什么使变量可见(intellij 想法)
使用 Intellij 想法，我如何找出使变量可见的原因？困难时的示例: 假设你看 class A ，你会看到一个变量 something .如果你跳转到源代码，你会看到它是在 trait X 中定
gradle - 想法-如何在.gradle文件的下一行放置括号？
在IntelliJ IDEA的代码样式设置中，没有.gradle文件的任何子类别(例如build.gradle)，在“其他文件类型”下，没有任何选项可以修改花括号位置。我没有找到为.gradle文件设
docker - 为Saleor运行docker-compose似乎陷入了循环，想法？
我正在尝试按照here指令运行docker-compose，但它似乎陷入了循环。在安装Docker之前，我能够调出示例站点并进行一些外观上的更改，但是尝试使用docker-compose生成缩略图23
debugging - Intellij 想法在不停止完整调试的情况下停止执行函数
我正在使用 IntelliJ IDEA 12.1.4 来调试 Grails 应用程序。我开始调试 session 大约需要 2 分钟。我想尽可能避免重新启动。我正在尝试调试一个 Controller
Jquery 包含 AJAX？想法？
随着 .NET 4.0 的出现，MS AJAX 是否仍占有一席之地，或者您认为 JQuery 是否会扩展以包含 AJAX 的全部功能，并使我们所知的 MS AJAX 变得多余？最佳答案请记住，AS
c# - C# 的快速入门示例应用程序不起作用。想法？
需要帮助运行此示例 Google+ API Quickstart w/C# 应用程序，请使用 VS2015 并按照此处的说明操作:https://developers.google.com/+/web
php - URL 正则表达式匹配器(想法)
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
Java "Stored procedure"想法
我有一个相当“疯狂”的想法，即在我的应用程序中拥有一个“存储过程”设施。基本上，我的应用程序以数据为中心，它可以通过某种形式的 Restful 界面访问数据存储。我希望拥有以多种方式操作数据(这是一

首页

博学

6Ren·AI

商城

python - 我的数据清理脚本很慢，有什么改进的想法吗？