- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个数据框“df_ret_temp”
df_ret_temp.loc[df_ret_temp['tradeDate'].str[5:7]<='03','accMonth']=df_ret_temp['tradeDate'].str[0:4].apply(lambda x:str(int(x)-1))+'12'
df_ret_temp.loc[(df_ret_temp['tradeDate'].str[5:7]<='06') &
(df_ret_temp['tradeDate'].str[5:7]>'03'),'accMonth']=df_ret_temp['tradeDate'].str[0:4]+'03'
df_ret_temp.loc[(df_ret_temp['tradeDate'].str[5:7]<='09') &
(df_ret_temp['tradeDate'].str[5:7]>'06'),'accMonth']=df_ret_temp['tradeDate'].str[0:4]+'06'
df_ret_temp.loc[(df_ret_temp['tradeDate'].str[5:7]<='12') &
(df_ret_temp['tradeDate'].str[5:7]>'09'),'accMonth']=df_ret_temp['tradeDate'].str[0:4]+'09'
但是,当我使用 apply 函数设置列 accMonth 值时。代码花费了太多时间。
def df_ret_tempFun(row):
if row['tradeDate'][5:7]<='03':
row['accMonth']=str(int(row['tradeDate'][0:4])-1)+'12'
elif row['tradeDate'][5:7]<='06' and row['tradeDate'][5:7]>'03':
row['accMonth']=row['tradeDate'][0:4]+'03'
elif row['tradeDate'][5:7]<='09' and row['tradeDate'][5:7]>'06':
row['accMonth']=row['tradeDate'][0:4]+'06'
else:
row['accMonth']=row['tradeDate'][0:4]+'09'
return row
df_ret_temp=df_ret_temp.apply(df_ret_tempFun,axis=1)
为什么apply函数的性能较低。
最佳答案
.apply(..., axis=1)
是一个 for x in df.iter*
循环,因此它不是矢量化的,因此是 <强>非常慢。
但是你的问题是 XY problem 的一个很好的例子。
这是针对您的“未询问”问题的 Pandas 解决方案:
In [33]: x
Out[33]:
Date
0 2007-01-01
1 2007-04-02
2 2007-08-03
3 2007-11-04
In [34]: x.dtypes
Out[34]:
Date object
dtype: object
首先确保您的Date
列的datetime
数据类型:
In [35]: x.Date = pd.to_datetime(x.Date)
In [36]: x.dtypes
Out[36]:
Date datetime64[ns]
dtype: object
矢量化解决方案:
In [37]: x['accMonth'] = pd.PeriodIndex(pd.PeriodIndex(df.Date, freq='Q') - 1, freq='3M')
In [38]: x
Out[38]:
Date accMonth
0 2007-01-01 2006-12
1 2007-04-02 2007-03
2 2007-08-03 2007-06
3 2007-11-04 2007-09
关于python - 为什么 dataframe.appy 花费太多时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40434879/
我一直在读一本分配给类(class)的书,它提到数组访问需要 O(1) 时间。我意识到这非常快(也许尽可能快),但是如果您有一个循环必须多次引用它,那么分配一个临时变量以在数组中查找值有什么好处吗?或
我一直试图找出为什么这个查询花了这么长时间。以前,它的执行时间约为 150 毫秒到 200 毫秒,但现在需要 25 秒或更长时间。这是从昨晚到今天之间的事。唯一改变的就是将数据添加到表中。 根据下面的
我有一个 ng repeat 重复数据。 - data.image(src)部分为null,src=null的不再重复。 我用一个简单的 ng-if 解决了它。
我有一个包含大量测试的 Laravel 项目。我正在使用 pcov 来计算代码覆盖率,大约需要 4 分钟。但是 pcov 不支持分支覆盖,所以我决定使用 xdebug。 使用 xdebug 测试执行,
我已经被这个问题困扰了一段时间了,我被难住了。 Automapper 需要 4 秒来映射 19 个对象。在我的机器(24GB 内存,3.6Ghz i7)上,该操作应该花费毫秒或纳秒。 这是映射调用。
我有一个包含大量测试的 Laravel 项目。我正在使用 pcov 来计算代码覆盖率,大约需要 4 分钟。但是 pcov 不支持分支覆盖,所以我决定使用 xdebug。 使用 xdebug 测试执行,
我在机器 A 上有一个 java 进程通过 TCP 与机器 B 上的 Tomcat 通信。 TCP 连接(只是 syn-syn/ack 交换)始终需要 100 毫秒的数量级,而 ping 请求需要 1
我做了一项任务,从 sqlserver 获取超过 200 万条记录并将它们填充到 Asp.net GridView 中。 问题是,查询需要超过 2 分钟才能获得记录,而我的查询现在已经完全优化。 当我
我希望将 165 秒变成 2:40 而不是 0:2:45 函数需要能够适应秒值的大小。 我知道有无数种方法可以做到这一点,但我正在寻找一种干净的方法来做到这一点,除了 jQuery 之外没有任何外部库
我是一名优秀的程序员,十分优秀!