- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我已经确定了一个 pandas 命令
timeseries.loc[z, x] = y
负责一次迭代中花费的大部分时间。现在我正在寻找更好的方法来加速它。循环甚至不包括 50k 个元素(生产目标是 ~250k 或更多),但已经需要 20 秒了。
这是我的代码(忽略上半部分,它只是计时助手)
def populateTimeseriesTable(df, observable, timeseries):
"""
Go through all rows of df and
put the observable into the timeseries
at correct row (symbol), column (tsMean).
"""
print "len(df.index)=", len(df.index) # show number of rows
global bf, t
bf = time.time() # set 'before' to now
t = dict([(i,0) for i in range(5)]) # fill category timing with zeros
def T(i):
"""
timing helper: Add passed time to category 'i'. Then set 'before' to now.
"""
global bf, t
t[i] = t[i] + (time.time()-bf)
bf = time.time()
for i in df.index: # this is the slow loop
bf = time.time()
sym = df["symbol"][i]
T(0)
tsMean = df["tsMean"][i]
T(1)
tsMean = tsFormatter(tsMean)
T(2)
o = df[observable][i]
T(3)
timeseries.loc[sym, tsMean] = o
T(4)
from pprint import pprint
print "times needed (total = %.1f seconds) for each command:" % sum(t.values())
pprint (t)
return timeseries
With(不重要,不慢)
def tsFormatter(ts):
"as human readable string, only up to whole seconds"
return time.strftime("%Y-%m-%d %H:%M:%S", time.gmtime(ts))
..
--> 待优化代码在for循环中
(T 和 t 只是辅助函数和 dict,用于计时。)
我已经为每一步计时了。绝大多数时间:
len(df.index)= 47160
times needed (total = 20.2 seconds) for each command:
{0: 1.102,
1: 0.741,
2: 0.243,
3: 0.792,
4: 17.371}
花费在最后一步
timeseries.loc[sym, tsMean] = o
我已经下载并安装了 pypy - 但遗憾的是,它还不支持 pandas。
关于如何加快填充二维数组的任何想法?
谢谢!
编辑:抱歉,没有提到 - 'timeseries' 也是一个数据框:
timeseries = pd.DataFrame({"name": titles}, index=index)
最佳答案
更新: 从 Pandas 0.20.1 开始 the .ix indexer is deprecated, in favor of the more strict .iloc and .loc indexers .
============================================= ======================
@jezrael 提供了一个有趣的比较,我决定使用更多索引方法和 1000 万行 DF 重复它(实际上在这种特殊情况下大小并不重要):
设置:
In [15]: df = pd.DataFrame(np.random.rand(10**7, 5), columns=list('abcde'))
In [16]: df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000000 entries, 0 to 9999999
Data columns (total 5 columns):
a float64
b float64
c float64
d float64
e float64
dtypes: float64(5)
memory usage: 381.5 MB
In [17]: df.shape
Out[17]: (10000000, 5)
时间:
In [37]: %timeit df.loc[random.randint(0, 10**7), 'b']
1000 loops, best of 3: 502 µs per loop
In [38]: %timeit df.iloc[random.randint(0, 10**7), 1]
1000 loops, best of 3: 394 µs per loop
In [39]: %timeit df.at[random.randint(0, 10**7), 'b']
10000 loops, best of 3: 66.8 µs per loop
In [41]: %timeit df.iat[random.randint(0, 10**7), 1]
10000 loops, best of 3: 32.9 µs per loop
In [42]: %timeit df.ix[random.randint(0, 10**7), 'b']
10000 loops, best of 3: 64.8 µs per loop
In [43]: %timeit df.ix[random.randint(0, 10**7), 1]
1000 loops, best of 3: 503 µs per loop
条形图形式的结果:
作为 DF 的时序数据:
In [88]: r
Out[88]:
method timing
0 loc 502.0
1 iloc 394.0
2 at 66.8
3 iat 32.9
4 ix_label 64.8
5 ix_integer 503.0
In [89]: r.to_dict()
Out[89]:
{'method': {0: 'loc',
1: 'iloc',
2: 'at',
3: 'iat',
4: 'ix_label',
5: 'ix_integer'},
'timing': {0: 502.0,
1: 394.0,
2: 66.799999999999997,
3: 32.899999999999999,
4: 64.799999999999997,
5: 503.0}}
绘图
ax = sns.barplot(data=r, x='method', y='timing')
ax.tick_params(labelsize=16)
[ax.annotate(str(round(p.get_height(),2)), (p.get_x() + 0.2, p.get_height() + 5)) for p in ax.patches]
ax.set_xlabel('indexing method', size=20)
ax.set_ylabel('timing (microseconds)', size=20)
关于python - pandas df.loc[z,x]=y 如何提高速度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37757844/
我在 Apple 的相关文档中没有找到这个:是否必须包含字段“loc-args”,即使您不需要任何参数并且它是空的,当提供字段“loc-key”时“? 谢谢 最佳答案 loc-key A key to
我有一个 Fortran 90 项目,它广泛使用 loc 函数来获取数组的地址(与 Matlab 互操作的 API 的一部分)。 这段代码在 Mac 和 Linux 上编译并运行在 Intel 和 g
让我先概述一下我要解决的问题。我试图根据包含“-1”的行中的其他两个值,将值“-1”替换为同一列中的另一个值。为了更清楚,这是一个例子。在下面的数据框中,“所有者”列中有两个缺失值。我想要的是将每个
我所做的所有研究都指向使用 loc作为通过 col(s) 值过滤数据帧的方法,今天我正在阅读 this我通过我测试的例子发现,loc当按值过滤 cols 时,不是真的需要: 前任: df = pd.D
这个问题已经有答案了: How to deal with SettingWithCopyWarning in Pandas (21 个回答) 已关闭 4 年前。 假设我有一个像这样的数据框,第一列“密
我想在我的应用程序打开时将来自推送通知负载的 loc-args 数组的第二个元素设置为 loc-key 转换,例如在 didReceiveRemoteNotification 方法中。 有效负载中的
以下赋值有何不同? df.loc[rows, [col]] = ... df.loc[rows, col] = ... 例如: r = pd.DataFrame({"response": [1,1,1
在给定 h 文件中的 LOC 数量的情况下,我可以估计最佳代码(桌面应用程序)中的 C++ LOC 数量是多少? 背景:我正在进行工作量估算和将 C++ 软件移植到 C# 的计划。 我的第一个想法是创
目标:通过实现可重用的 JS(或 ASP?)消除初始 DOM 中的冗余。 在这个例子中,我想写一些 JS 来将 div @id loc-A 的内容“bump”到 div @id loc-B,而不必在页
我正在尝试提高代码性能。我使用 Pandas 0.19.2 和 Python 3.5。 我刚刚意识到 .loc 一次写入一大堆值的速度非常不同,具体取决于数据帧初始化。 谁能解释为什么,并告诉我什么是
自己试试看: import pandas as pd s=pd.Series(xrange(5000000)) %timeit s.loc[[0]] # You need pandas 0.15.1
是否可以找到在特定提交中添加的存储库的总代码行数? 最佳答案 流失扩展做我需要的: hg churn --rev 100 关于mercurial - 查找在特定提交中添加的存储库 LOC,我们在Sta
虽然 LOC(# 代码行数)是衡量代码复杂性的一个有问题的方法,但它是最流行的方法,如果使用得非常小心,至少可以粗略估计代码库的相对复杂性(即,如果一个程序是 10KLOC)另一个是 100KLOC,
我即将在大型项目上使用SonarQube,并一直在搜索有关LOC限制的信息进行分析,但他们的网站上没有相关信息。有没有?如果是的话,限制是多少? 最佳答案 无论是在单个项目内还是跨实例,都没有硬性限制
我正在使用 SonarQube Developer Edition 5.6.7 (LTS) 并购买了支持 500 万 LOC 的许可证。我们通过拥有项目 key 和模板来使用 RBAC 和 Sonar
是否有人遇到过这样的情况:用 Java 编写并由(例如)法国程序员编写的现有代码库必须转换为英语程序员可以理解的代码?这里的问题是变量/方法/类名称、注释等都将采用该特定语言。 现在有可用的自动化解决
给定 df 'AB': A = pd.DataFrame([[1, 5, 2], [2, 4, 4], [3, 3, 1], [4, 2, 2], [5, 1, 4]], colum
我有一个像这样的数据框: import pandas as pd df = pd.DataFrame({'col1': ['abc', 'def', 'tre'],
如果我有一个 pandas.DataFrame具有不同类型的列(例如 int64 和 float64 ),从 int 获取单个元素列 .loc索引将输出转换为 float : import panda
我有一个大约 400k IP 的列表(存储在 pandas DataFrame df_IP 中)使用 maxming geoIP 数据库进行地理定位。我使用城市版本,并检索城市、纬度、经度和县代码(法
我是一名优秀的程序员,十分优秀!