python - 如何提高这个简单的数据清理代码的运行时间？-6ren

python - 如何提高这个简单的数据清理代码的运行时间？

转载作者：行者123 更新时间：2023-12-01 01:01:58

25

4

我正在预处理一个大型数据帧以进行分析。基本上，我试图在列中找到最大数字或接近最大数字(“接近”定义为大于 0.9*最大数字)，并用 1 标记它> 而其他位置保持为0，即，如果列包含 [25, 3, 5, 24, 0]，则应将其转换为 [1,0,0,1,0]。不知何故，我编写的代码需要永远运行。

我编写了一个简单的列表理解来逐列清理数据。该代码运行前 2,000 列的时间不到 1 秒。但是，当我将列数增加到10,000时，它变得非常慢，花了半个多小时。最终我想在 500 万行数据集上运行此代码，是否有什么问题需要我进行更改以提高效率？

tic = time.time()

for col in temp_dataset_1.iloc[:,:10000]:
    temp_dataset_1[col] = [1 if i >= i.max()*.9 else 0 for i in temp_dataset_1[col]]

toc = time.time() - tic
print('Calculating 10,000 out of 5,810,172 rows took %d seconds' %toc)
#temp_dataset_1.iloc[:,:10000].head(n=5)

我的数据结构知识有限，我是否遗漏了一些明显的东西？

最佳答案

使用 numpy 尝试一下这种方法:

import time
import pandas as pd
import numpy as np

# Create fake data (this should take around 9s)
tic = time.time()
value2 = []
for x in range(10000):
    value1 = []
    for y in range(10000):
        value1.append(x)
    value2.append(value1)

print(time.time() - tic)
tic = time.time()
temp_dataset_1 = pd.DataFrame(value2)


for col in temp_dataset_1.iloc[:,:10]:
    max_value = max(temp_dataset_1[col])
    a = np.array(temp_dataset_1[col].values.tolist())
    temp_dataset_1[col] = np.where(a >= max_value*.9, 1, 0).tolist()

print(temp_dataset_1.shape)
toc = time.time() - tic
print('Calculating 10,000 out of 5,810,172 rows took %d seconds' %toc)

对于 10K x 10K 矩阵，时间为 19 秒:

Calculating 10,000 out of 5,810,172 rows took 19 seconds

关于python - 如何提高这个简单的数据清理代码的运行时间？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55720892/

25

4

0

文章推荐： google-cast - 没有媒体的 Chromecast 定制接收器

文章推荐： jQuery - IF IN 字符串或数组条件

文章推荐： jquery - 正在学习 jQuery，但什么也没发生？

文章推荐： jquery - 选择所有没有选中复选框的

flutter - 为什么dart不会抛出编译时错误类型异常。运行时间？
考虑以下示例代码: void main() { List array = []; for (int i = 0; i newList = array.where( (value) => v
java - TextRank 运行时间
我在java中实现了textrank，但它看起来很慢。有谁知道它的预期性能吗？如果预计速度不会很慢，则可能是以下任一问题: 1) 似乎没有办法在 JGraphT 时间内创建一条边并同时为其添加权重，
java - 输出流的flush()运行时间
我正在尝试提交解决方案(使用一些具有编译时间限制的在线编译器)来对数组进行排序 - 这是我的代码片段 - class TSORT { public static void main(Strin
c++ - 数据结构——运行时间
只是一个困惑......部分C++示例代码如下我只是重新编辑了整个帖子。抱歉造成任何混淆 int i, j; i = 0; // c1 j = 0; // c2 while (i
c++ - OpenMP 运行时间
我正在使用 OpenMP 运行一些并行工作，但发现加速无法很好地扩展。然后我发现随着线程数量的增加，完成相同工作量的时间也会增加。这是示例: void fillingVec(vector& vec)
algorithm - 最大子数组 - 运行时间
我目前正在分析 maximum subarray problem 用于强力算法和分而治之算法(递归)。使用蛮力算法，最坏情况下的运行时间为 O(n^2)。使用递归算法，最坏情况下的运行时间为 O(n
javascript concat 运行时间
如果我有两个数组都有 10000 个项目，现在我想将它们合并到一个数组中，所以我用 concat 来完成: array1=array1.concat(array2); 但是有人知道运行时间是多少吗？
C++ 运行时间，以毫秒为单位
{ clock_t t1, t2; double time1 = 0; t1 = clock(); bubbleSort(data, n); t2 = cloc
runtime - 运行时间 vs 设计时间
我在某处读到有人可以在运行时访问配置值，但不能在设计时访问。在这种情况下，运行时和设计时有什么区别？最佳答案设计时间是有人用愉快的“看起来不错!”在我们的 Word 文档和 UML 图表上签字的时
java - 优化 GC 运行时间
我正在比较我们一个项目的两个分支的性能，一个比另一个慢得多。我注意到其中一个的 GC 运行计数更高(见下图)。更有趣的是，运行时间要长很多倍，远远超过额外运行所能解释的时间。什么可以解释运行次数增加
java - log4j有r(运行时间)的时间格式吗
我想以可读的方式格式化 log4j 经过的运行时间，%r 参数: [00:36:25.844] 和 [01 13:35:25.844] [时:分:ss.SSS] ... [dd 时:分:ss.SSS]
performance - 嵌套循环的大 O 运行时间？
如何计算此代码的大 O 运行时效率？我的直觉告诉我它是 O(n^3)，但我不确定，因为我不确定循环是独立的还是相关的。 for (i=1; i<=n; i++) for (j=1; j<=n;
algorithm - 确定这些不同循环的大 O 运行时间？
确定这些不同循环的大 O 运行时间？ for i = 1 to n { ... for j = 1 to 2*i { ... k = j; while (k>=0)
algorithm - 运行时间，复杂性，编译时间和执行时间有什么区别？
运行时间、复杂性、编译时间和执行时间有什么区别？运行时间与时间复杂度有冲突，执行时间和执行时间有什么区别？最佳答案您真正需要的是如何将大O时间复杂度转换为运行时。这不像一开始看起来那么容易。因
algorithm - Mergesort 运行时间 BigO
斯内普的《Unfriendly Algorithms for Wizards》教科书声称合并的运行时间排序是 O(n^4)。这种说法是否正确？解决方案:是的。这个说法在技术上是正确的，因为 O(n^
algorithm - 确定这些不同循环的大 O 运行时间？
我有一系列问题需要反馈和答案。我会评论我的想法，这不是家庭作业而是准备为了我的考试。我的主要问题是确定不同情况下循环的迭代。试图弄清楚这一点会如何？评估运行时间。 Q2。 for(int i =
java - 测量eclipse中的速度，运行时间，执行时间
我试图找到一个合理的机会来测量我的 java 程序/程序部分的速度，例如测试两种方法中哪一种执行得更快。注释掉这两种方法中的一种，确定运行时间，最后比较时间。我不想在我的程序中使用任何代码，例如: p
java - 某些方法上的 BigO 运行时间
好吧，这些都是非常简单的方法，而且有几个，所以当它们都是同一件事时，我不想只创建多个问题。 BigO 是我的弱点。我只是想不通他们是如何得出这些答案的。无论如何，您是否可以让我深入了解您对分析其中一些
c++ - 递归的 Theta 运行时间
如何计算此给定代码的 Theta 运行时间: void f(int n) { for (int i=3; i
clojure - Leiningen uberjar "empty"运行时间
使用 leiningen 创建 uberjar 并使用 java -jar foo-uberjar.jar 运行该 jar 后程序运行良好，最后一行代码执行得相当快，但程序在关闭前挂了大约一分钟。这是

首页

博学

6Ren·AI

商城

python - 如何提高这个简单的数据清理代码的运行时间？