python - Pandas dataframe - python 中的速度 : dataframe operations, numba，cython-6ren

python - Pandas dataframe - python 中的速度 : dataframe operations, numba，cython

转载作者：行者123 更新时间：2023-11-28 21:05:38

27

4

我有一个包含约 200 万行的金融数据集。我想将它导入为 pandas 数据框，并通过应用一些现有列值的行向函数来添加额外的列。为此，我不想使用任何技术，如并行化、用于 python 的 hadoop 等，因此我面临以下问题:

我已经在执行类似于下面示例的操作，但性能很差，大约需要 24 分钟才能完成 ~20K 行。 注意:这不是实际函数，它完全是虚构的。对于附加列，我正在计算各种金融期权指标。我怀疑速度慢主要是由于遍历所有行，而不是函数本身，因为它们相当简单(例如计算期权的价格)。我知道我可以加快函数本身的一些小事情，例如使用 erf 而不是正态分布，但为此我想专注于整体问题本身。

def func(alpha, beta, time, vol):
    px = (alpha*beta)/time * vol
    return px

# Method 1 (could also use itertuples here) - this is the one that takes ~24 minutes now
for row in df.iterrows():
    df['px'][row] = func(alpha, beta, df['time'][row], df['vol'][row])

我也尝试过对其进行矢量化，但不断收到有关“无法序列化 float ”或类似内容的错误。

我的想法是尝试以下方法之一，我不确定理论上哪种方法最快？是否存在与运行这些相关联的非线性，例如 1000 行的测试不一定表明在所有 200 万行中哪一个最快？可能是一个单独的问题，但我应该关注更有效的方法来管理数据集而不是仅仅关注应用函数？

# Alternative 1 (df.apply with existing function above)
df['px'] = df.apply(lambda row: func(alpha, beta, row['time'], row['vol']), axis=1)

# Alternative 2 (numba & jit)
@jit
def func(alpha, beta, time, vol):
    px = (alpha*beta)/time * vol
    return px

# Alternative 3 (cython)
def func_cython(double alpha, double beta, double time, double vol):
    cdef double px
    px = (alpha*beta)/time * vol
    return px

对于 Cython 和 numba，我是否仍会使用 df.apply 遍历所有行？还是有更有效的方法？

我引用了以下内容并发现它们有助于理解各种选项，但不是“最佳”方法是什么(尽管我认为这最终取决于应用程序)。

https://lectures.quantecon.org/py/need_for_speed.html

Numpy vs Cython speed

Speeding up a numpy loop in python?

Cython optimization

http://www.devx.com/opensource/improve-python-performance-with-cython.html

最佳答案

简单的怎么样:

df.loc[:, 'px'] = (alpha * beta) / df.loc[:, 'time'] * df.loc[:, 'vol']

顺便说一句，您的 for-loop/lambda 解决方案很慢，因为每个 pandas 访问的开销很大。因此，单独访问每个单元格(通过遍历每一行)比访问整列要慢得多。

关于python - Pandas dataframe - python 中的速度 : dataframe operations, numba，cython，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43720541/

27

4

0

文章推荐： javascript - jQuery:如何使用参数和正文发出http请求？

文章推荐： ios - 如何找到 Firebase SDK 方法可能出现的错误？

文章推荐： python - 我如何从 minimock 中的模拟方法访问对象的 "self"

cython - cython 何时以及如何进行边界检查？
c 不做边界检查。那么cython是如何检查是否编译成c的呢？ %%cython --annotate cimport cython @cython.boundscheck(True) cpdef m
cython - Cython 中的
可以直接声明用于 Cython 构造函数？据我了解，这是可能的: # Cython cdef int[3] li = [1, 2, 3] # C++ int[3] li = {1, 2, 3} 但
cython - 在 Cython 中将结构自动转换为字典
所以，如果你有一个头文件。 %%file test.h struct mystruct{ int i; int j; }; 然后你将它包装在 Cython 中: cdef extern fr
cython - 如何在定义 cython 扩展之前识别编译器？
我正在构建一个独立于平台的 cython 项目，我想根据正在使用的编译器传递编译器参数。我可以猜测基于平台的编译器，或者假设它与用于 Python 的编译器相同，但不能保证匹配。通常我注入(injec
cython - 诗歌+狮身人面像+Cython
我使用诗歌构建我的 cython 包。我在所有函数和类中都有 NumPy 风格的文档字符串。我现在要做的是添加 Sphinx 自动文档并发布在 Read the Docs。我已阅读此主题 How d
cython - 将自定义比较器传递给 Cython 中的优先级队列
赛通 libcpp模块包含 priority_queue 的模板，这很好，除了一件事:我不能通过自定义比较器(或者，至少，我不知道如何)。我需要这个，因为我需要 priority_queue做一个a
cython - 如何在文档中显示 Cython 函数的参数？
以下代码定义了一个简单的 Cython 函数(为方便起见，使用 Ipython 魔法)。 %load_ext cython %%cython def f(float x, float y=2):
cython - 使用 Cython 进行复值计算
我正在尝试使用 cython 进行复数计算。在示例代码中，我想计算复数的复指数函数。问题是我不知道如何将我的整数乘以虚数单位。python的虚数单位1.0j乘以cython执行时报错。这是我的代码:
cython - 在 Cython 中定义字符串数组
在这里停留在一些基本的 Cython 上 - 在 Cython 中定义字符串数组的规范且有效的方法是什么？具体来说，我想定义一个定长常量数组char . (请注意，此时我不想引入 NumPy。) 在
cython - 在 Cython 中在编译时获取整数的大小
是否有可能，如果是，如何确定 Cython 中整数数据类型的大小(以位为单位)？我正在尝试做这样的事情，以获得整数大小: cdef WORD_BITS = 0 IF sizeof(unsigned
cython - 打印 cython 变量的地址
我只是想打印 cython 变量的地址，但我无法绕过错误消息: cdef int myvar print &myvar 抛出 Cannot convert 'int *' to Python obje
cython - 如何在 Cython 中扩展宏
我有一个 C 头文件，它在宏中定义了一个函数。我需要从 Cython 调用它。有没有办法在 Cython 中使用宏并使其完全扩展？我已经有了 C 类型的参数。我尝试像使用函数一样使用 cdef，我认
cython - 在 Cython 中获取结构元素
令人惊讶的是，我似乎找不到通过名称获取结构体元素的单个示例(无论是在网络上还是在 cython 示例中)。所以我收到了一个指向 C 函数结构体的指针，并且想要一一访问这些元素并将它们重新打包到 py
cython - 我的 Cython 有什么问题？
我尝试围绕 C++ 库编写一个 Cython 包装器 http://primesieve.org/ 它包装了一个函数count。到目前为止，它可以正确安装 python setup.py instal
python - Cython:ImportError:没有名为 'myModule' 的模块:如何将包含 cimport 的 cython 模块调用到另一个 cython 结节？
我正在尝试将 cython 模块 data.pyx 导入另一个 cython 模块 user.pyx。一切都编译得很好，但是当我尝试在 python 模块中调用 user.pyx 时，我收到错误“Im
cython - Bakeoff 第 1 部分 Python vs Cython vs Cython 类型化内存 View : LDA by Gibbs Sampling
更新:内存 View 获胜。Cython 使用类型化内存 View :0.0253449 特别感谢 lothario，他指出了几个关键的变化。荒谬。当然现在的问题是，似乎不能对它们做太多算术(加法和
cython - 为什么不能腌制 cython 内存 View ？
我有一个使用 memoryview 数组的 cython 模块，即... double[:,:] foo 我想使用多处理并行运行这个模块。但是我得到了错误: PicklingError: Can't
cython - mypy 不喜欢别名 Cython 类型
我正在尝试使用 Cython 加速 PEP 484 类型的 python 脚本。我想保持一些语义和可读性。之前，我有一个 Flags = int def difference(f1: Flags,
cython - 使用 cython 为一组文件制作一个 pyd
这个问题已经有答案了: Collapse multiple submodules to one Cython extension (5 个回答) 已关闭 3 年前。我在一个包中有多个 .py 文件
cython - 如何分发从 cython 生成的 .so 文件
我已经能够在我的 .pyx 脚本上使用 cython 在 linux 上创建一个 .so 文件。我也可以成功地在我的 python 解释器上进行导入。我的问题是如何在不使用 cython 的情况下将

首页

博学

6Ren·AI

商城

python - Pandas dataframe - python 中的速度 : dataframe operations, numba，cython