- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在寻找一种有效的方法来遍历数据框并执行代码,对于每一行,它根据过去或 future 行中的值执行某些操作。
我逐行(使用 for 循环)遍历日期时间索引的数据帧,该数据帧可能有超过 200'000 行。根据两列(Bi 和 Icats)之一中的值,我在第三列 (To_set) 中设置了一个值。在每一行中执行的代码包含一个条件,该条件使用当前索引和时间增量在前一行(在列 Bi 中)中查找值。
目前,循环遍历数据帧需要很长时间,我想知道是否有更快或更优雅的方法可用。
代码循环的数据帧具有三列(Bi、Icats、to_set)——下面是 df 的一部分。
注意:我的代码已经循环遍历 df 并在“To_set”列中设置值。没有值,因为我最初使用 None
而不是 pd.np.nan
初始化该列。
Bi Icats To_set
2014-11-28 10:17:00 NaN NaN None
2014-11-28 10:30:00 NaN 0.040220 0.04022
2014-11-28 10:32:00 NaN NaN None
2014-11-28 10:35:00 0.217 NaN 0.217
2014-11-28 10:38:00 0.365 NaN 0.365
2014-11-28 10:44:00 0.227 NaN 0.227
2014-11-28 10:45:00 NaN 0.040220 None
2014-11-28 10:47:00 0.149 NaN 0.149
2014-11-28 10:50:00 0.109 NaN 0.109
2014-11-28 10:56:00 NaN NaN None
2014-11-28 10:59:00 0.065 NaN 0.065
2014-11-28 11:00:00 NaN 0.063687 None
2014-11-28 11:14:00 NaN NaN None
2014-11-28 11:15:00 NaN 0.047007 0.0470067
2014-11-28 11:30:00 NaN 0.041165 0.041165
2014-11-28 11:35:00 NaN NaN None
2014-11-28 11:45:00 NaN 0.040600 0.0406
2014-11-28 12:00:00 NaN 0.039667 0.0396667
2014-11-28 12:15:00 NaN 0.039460 0.03946
2014-11-28 12:30:00 NaN 0.038955 0.038955
目前执行循环的代码如下所示:
注意 - 'Bi' 的列索引为 3,'Icats' 为 4,'To_set' 为 5
df['New'] = pd.np.nan
for i in range(len(df)):
if pd.notnull(df.iloc[i,3]):
# if there is a value in Bi, take it always
df.iloc[i,5] = df.iloc[i,3]
continue
if pd.notnull(df.iloc[i,4]):
# take icats value only if there was no Bi value in the
# past 10 mins
# --> find the index of the last Bi value with last_valid_index() (a),
# and if timedelta between (a) and i > 10 mins, take Icats value
try:
if df.iloc[:i,3].last_valid_index() < (df.index[i].to_pydatetime() -
datetime.timedelta(minutes=10)):
# last bi value is older than startTime.
# Take the current icats value
df.iloc[i,5] = df.iloc[i,4]
except TypeError:
df.iloc[i,5] = df.iloc[i,4]
# have to include a try statement because until code hits the first real value
# in bi, the if condition below throws an error
是否有更好或更优雅的方法来逐行迭代数据框,以便访问前一行或后几行中的值?我知道有类似 df.itertuples()
的东西,但我认为这不能让我查看之前的行。
编辑:
我重写了代码,使其不需要查看之前的行,而是将之前行中所需的所有信息保存在变量中。显然,这运行得更快。通过这种方式,我可能可以使用 df.itertuples()
来进一步加快代码速度。但是,我最初的问题仍然存在:是否有一种优雅的方式来遍历数据帧并在其中使用值条件语句的前几行?
firstBiValueMet = False
for i in range(len(df)):
if pd.notnull(df.iloc[i,3]):
# save time for future calculations
firstBiValueMet = True
lastTime = df.index[i].to_pydatetime()
# if there is a value in Bi, take it always
df.iloc[i,5] = df.iloc[i,3]
continue
if pd.notnull(df.iloc[i,4]) and firstBiValueMet == False:
# in this case, take icats value anyway
df.iloc[i,5] = df.iloc[i,4]
if pd.notnull(df.iloc[i,4]) and firstBiValueMet == True and df.index[i] - lastTime > datetime.timedelta(minutes=10):
# take icats value only if there was no Bi value in the
# past 10 mins
df.iloc[i,5] = df.iloc[i,4]
if i%15000 == 0:
print(i)
最佳答案
None
出现在 To_set
列中对您有多重要?
这个问题很难在 for
循环中完成,因为将 To_set
设置为什么的决定取决于之前与时间相关的行条件。
这是一种不依赖于循环的“开箱即用”方法。它也没有 None
的概念作为 To_set
的值,而只是保留当前 To_set
值的运行记录.
DataFrame 娱乐
import pandas as pd
import numpy as np
timestamps = [pd.Timestamp('2014-11-28 10:17:00'), pd.Timestamp('2014-11-28 10:30:00'), pd.Timestamp('2014-11-28 10:32:00'), pd.Timestamp('2014-11-28 10:35:00'), pd.Timestamp('2014-11-28 10:38:00'), pd.Timestamp('2014-11-28 10:44:00'), pd.Timestamp('2014-11-28 10:45:00'), pd.Timestamp('2014-11-28 10:47:00'), pd.Timestamp('2014-11-28 10:50:00'), pd.Timestamp('2014-11-28 10:56:00'), pd.Timestamp('2014-11-28 10:59:00'), pd.Timestamp('2014-11-28 11:00:00'), pd.Timestamp('2014-11-28 11:14:00'), pd.Timestamp('2014-11-28 11:15:00'), pd.Timestamp('2014-11-28 11:30:00'), pd.Timestamp('2014-11-28 11:35:00'), pd.Timestamp('2014-11-28 11:45:00'), pd.Timestamp('2014-11-28 12:00:00'), pd.Timestamp('2014-11-28 12:15:00'), pd.Timestamp('2014-11-28 12:30:00')]
data = {'Bi': [np.nan, np.nan, np.nan, 0.217, 0.365, 0.22699999999999998, np.nan, 0.149, 0.109,
np.nan, 0.065, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan],
'Dummy1': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan,
np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan],
'Dummy2': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan,
np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan],
'Dummy3': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan,
np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan],
'Icats': [np.nan, 0.04022, np.nan, np.nan, np.nan, np.nan, 0.04022, np.nan, np.nan, np.nan, np.nan,
0.063687, np.nan, 0.047007, 0.041165, np.nan, 0.0406, 0.039667, 0.03946,
0.038955000000000004],
'To_set': ['None', 0.040219999999999999, 'None', '0.217', '0.365', '0.227',
'None', '0.149', '0.109', 'None', '0.065', 'None', 'None',
'0.0470067', '0.041165', 'None', '0.0406', '0.0396667', '0.03946',
'0.038955']}
columns = ['Dummy1', 'Dummy2', 'Dummy3', 'Bi', 'Icats', 'To_set']
original_df = pd.DataFrame(data, index=timestamps, columns=columns)
original_df
看起来像这样:
Dummy1 Dummy2 Dummy3 Bi Icats To_set
2014-11-28 10:17:00 NaN NaN NaN NaN NaN None
2014-11-28 10:30:00 NaN NaN NaN NaN 0.040220 0.04022
2014-11-28 10:32:00 NaN NaN NaN NaN NaN None
2014-11-28 10:35:00 NaN NaN NaN 0.217 NaN 0.217
2014-11-28 10:38:00 NaN NaN NaN 0.365 NaN 0.365
2014-11-28 10:44:00 NaN NaN NaN 0.227 NaN 0.227
2014-11-28 10:45:00 NaN NaN NaN NaN 0.040220 None
2014-11-28 10:47:00 NaN NaN NaN 0.149 NaN 0.149
2014-11-28 10:50:00 NaN NaN NaN 0.109 NaN 0.109
2014-11-28 10:56:00 NaN NaN NaN NaN NaN None
2014-11-28 10:59:00 NaN NaN NaN 0.065 NaN 0.065
2014-11-28 11:00:00 NaN NaN NaN NaN 0.063687 None
2014-11-28 11:14:00 NaN NaN NaN NaN NaN None
2014-11-28 11:15:00 NaN NaN NaN NaN 0.047007 0.0470067
2014-11-28 11:30:00 NaN NaN NaN NaN 0.041165 0.041165
2014-11-28 11:35:00 NaN NaN NaN NaN NaN None
2014-11-28 11:45:00 NaN NaN NaN NaN 0.040600 0.0406
2014-11-28 12:00:00 NaN NaN NaN NaN 0.039667 0.0396667
2014-11-28 12:15:00 NaN NaN NaN NaN 0.039460 0.03946
2014-11-28 12:30:00 NaN NaN NaN NaN 0.038955 0.038955
这是下一部分的代码,然后我会解释它:
df = original_df.copy()
df.drop('To_set', axis=1, inplace=True)
new_index = pd.DatetimeIndex(start=df.index.min(), end=df.index.max(), freq='1min')
df = df.reindex(new_index)
df['Bi'] = df['Bi'].ffill(limit=10)
df['To_set_NEW'] = df['Bi'].combine_first(df['Icats']).ffill()
compare_df = df.loc[original_df.index]
df
df
中删除 To_set
列df
使用新索引填充缺失的时间段,频率为 1 分钟。如果你的 df 超过了很长一段时间,这种方法可能会很糟糕 :) 因为它会在每一天的每一分钟填写一行。如果没有内存错误,继续...Bi
但限制为最多 10 次填充。combine_first
设置Bi
或Icats
。这是有效的,因为如果 Bi
没有被向前填充 10 分钟,并且 Icats
有一个值,Icats
值将被选中。<compare_df
与 original_df
进行比较,以评估它是否符合您的要求。您可以将输出与此进行比较:
output = pd.DataFrame({'To_set': original_df['To_set'], 'To_set_NEW': compare_df['To_set_NEW']})
输出看起来像这样:
To_set To_set_NEW
2014-11-28 10:17:00 None NaN
2014-11-28 10:30:00 0.04022 0.040220
2014-11-28 10:32:00 None 0.040220
2014-11-28 10:35:00 0.217 0.217000
2014-11-28 10:38:00 0.365 0.365000
2014-11-28 10:44:00 0.227 0.227000
2014-11-28 10:45:00 None 0.227000
2014-11-28 10:47:00 0.149 0.149000
2014-11-28 10:50:00 0.109 0.109000
2014-11-28 10:56:00 None 0.109000
2014-11-28 10:59:00 0.065 0.065000
2014-11-28 11:00:00 None 0.065000
2014-11-28 11:14:00 None 0.065000
2014-11-28 11:15:00 0.0470067 0.047007
2014-11-28 11:30:00 0.041165 0.041165
2014-11-28 11:35:00 None 0.041165
2014-11-28 11:45:00 0.0406 0.040600
2014-11-28 12:00:00 0.0396667 0.039667
2014-11-28 12:15:00 0.03946 0.039460
2014-11-28 12:30:00 0.038955 0.038955
所有这些都是最佳实践吗?
可能不是,但这是另一种看待它的方式。 np.where(cond, what to do if true, else this)
在这里也很方便。问题是您根据当前行的时间戳将滚动时间限制为 10 分钟。也许其他人有更好的主意!
关于python-3.x - 如何在查看前几行值的每一行中执行代码的同时,高效地逐行遍历 pandas 数据框?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45993156/
我有一个“有趣”的问题,即以两种不同的方式运行 wine 会导致: $> wine --version /Applications/Wine.app/Contents/Resources/bin/wi
我制作了这个网络抓取工具来获取网页中的表格。我使用 puppeteer (不知道 crontab 有问题)、Python 进行清理并处理数据库的输出 但令我惊讶的是,当我执行它时 */50 * * *
JavaScript 是否被调用或执行取决于什么?准确地说,我有两个函数,它们都以相同的方式调用: [self.mapView stringByEvaluatingJavaScriptFromStri
我目前正在使用 python 做一个机器学习项目(这里是初学者,从头开始学习一切)。 只是想知道 statsmodels 的 OLS 和 scikit 的 PooledOlS 使用我拥有的相同面板数据
在使用集成对象模型 (IOM) 后,我可以执行 SAS 代码并将 SAS 数据集读入 .Net/C# 数据集 here . 只是好奇,使用 .Net 作为 SAS 服务器的客户端与使用 Enterpr
有一些直接的 jQuery 在单击时隐藏打开的 div 未显示,但仍将高度添加到导航中以使其看起来好像要掉下来了。 这个脚本工作正常: $(document).ready(funct
这个问题已经有答案了: How do I compare strings in Java? (23 个回答) 已关闭 4 年前。 这里是 Java 新手,我正在使用 NetBeans 尝试一些简单的代
如果我将它切换到 Python 2.x,它执行 10。这是为什么? 训练逻辑回归模型 import keras.backend as
我有两个脚本,它们包含在 HTML 正文中。在第一个脚本中,我初始化一个 JS 对象,该对象在第二个脚本标记中引用。 ... obj.a = 1000; obj.
每当我运行该方法时,我都会收到一个带有数字的错误 以下是我的代码。 public String getAccount() { String s = "Listing the accounts";
我已经用 do~while(true) 创建了我的菜单;但是每次用户输入一个数字时,它不会运行程序,而是再次显示菜单!你怎么看? //我的主要方法 public static void main(St
执行命令后,如何让IPython通知我?我可以使用铃声/警报还是通过弹出窗口获取它?我正在OS X 10.8.5的iTerm上运行Anaconda。 最佳答案 使用最新版本的iTerm,您可以在she
您好,我刚刚使用菜单栏为 Swing 编写了代码。但是问题出现在运行中。我输入: javac Menu.java java Menu 它没有给出任何错误,但 GUI 没有显示。这是我的源代码以供引用:
我觉得这里缺少明显的东西,但是我看不到它写在任何地方。 我使用Authenticode证书对可执行文件进行签名,但是当我开始学习有关它的更多信息时,我对原样的值(value)提出了质疑。 签名的exe
我正在设计一个应用程序,它使用 DataTables 中的预定义库来创建数据表。我想对数据表执行删除操作,为此应在按钮单击事件上执行 java 脚本。 $(document).ready(functi
我是 Haskell 新手,如果有人愿意帮助我,我会很高兴!我试图让这个程序与 do while 循环一起工作。 第二个 getLine 命令的结果被放入变量 goGlenn 中,如果 goGlenn
我有一个用 swing 实现迷你游戏的程序,在主类中我有一个循环,用于监听游戏 map 中的 boolean 值。使用 while 实现的循环不会执行一条指令,如果它是唯一的一条指令,我不知道为什么。
我正在尝试开发一个连接到 Oracle 数据库并执行函数的 Java 应用程序。如果我在 Eclipse 中运行该应用程序,它可以工作,但是当我尝试在 Windows 命令提示符中运行 .jar 时,
我正在阅读有关 Java 中的 Future 和 javascript 中的 Promises 的内容。下面是我作为示例编写的代码。我的问题是分配给 future 的任务什么时候开始执行? 当如下行创
我有一个常见的情况,您有两个变量(xSpeed 和 ySpeed),当它们低于 minSpeed 时,我想将它们独立设置为零,并在它们都为零时退出。 最有效的方法是什么?目前我有两种方法(方法2更干净
我是一名优秀的程序员,十分优秀!