python - 用值填充非常大的数据框的快速方法

转载作者：行者123 更新时间：2023-11-28 20:36:06

我有一个非常大的数据框，它有 100 年的日期作为列标题(即 ~36500 列)和 100 年的日期作为索引(即 ~36500 行)。我有一个函数可以计算数据帧的每个元素的值，需要运行 36500^2 次。

好的，问题不在于函数速度太快，而在于将值分配给数据框。即使我以这种方式分配常量，每 6 次分配也需要大约 1 秒。显然我很厚，你可以看出:

for i, row in df_mBase.iterrows():
    for idx, val in enumerate(row):
        df_mBase.ix[i][idx] = 1
    print(i)

通常在 C/Java 中，我会简单地循环 36500x36500 双循环并通过索引直接访问预先分配的内存，这可以在恒定时间内实现，几乎没有开销。但这似乎不是 python 中的一个选项？

将此数据存储在数据框中最快的方法是什么？不管是否是 Pythonian，我只追求速度 - 我不在乎优雅。

最佳答案

这可能会变慢有几个原因

.ix

.ix 是一个神奇的类型索引器，它可以同时做标签和位置索引，但是会是deprecated。对于基于标签的更严格的 .loc 和基于索引的 .iloc。我假设 .ix 在幕后做了很多魔术来确定是否需要基于标签或基于位置的索引

.iterrows

为每一行返回一个(新的？)Series。基于列的迭代可能更快，因为 .iteritems 迭代列

[][]

df_mBase.ix[i][idx] 返回一个 Series，然后从中获取元素 idx，并为其赋值1.

df_mBase.loc[i, idx] = 1

应该改进这个

基准测试

import pandas as pd

import itertools
import timeit


def generate_dummy_data(years=1):
    period = pd.Timedelta(365 * years, unit='D')

    start = pd.Timestamp('19000101')
    offset = pd.Timedelta(10, unit='h')

    dates1 = pd.DatetimeIndex(start=start, end=start + period, freq='d')
    dates2 = pd.DatetimeIndex(start=start + offset, end=start + offset + period, freq='d')

    return pd.DataFrame(index=dates1, columns=dates2, dtype=float)


def assign_original(df_orig):
    df_new = df_orig.copy(deep=True)
    for i, row in df_new.iterrows():
        for idx, val in enumerate(row):
            df_new.ix[i][idx] = 1
    return df_new


def assign_other(df_orig):
    df_new = df_orig.copy(deep=True)
    for (i, idx_i), (j, idx_j) in itertools.product(enumerate(df_new.index), enumerate(df_new.columns)):
        df_new[idx_j][idx_i] = 1
    return df_new


def assign_loc(df_orig):
    df_new = df_orig.copy(deep=True)
    for i, row in df_new.iterrows():
        for idx, val in enumerate(row):
            df_new.loc[i][idx] = 1
    return df_new


def assign_loc_product(df_orig):
    df_new = df_orig.copy(deep=True)
    for i, j in itertools.product(df_new.index, df_new.columns):
        df_new.loc[i, j] = 1
    return df_new


def assign_iloc_product(df_orig):
    df_new = df_orig.copy(deep=True)
    for (i, idx_i), (j, idx_j) in itertools.product(enumerate(df_new.index), enumerate(df_new.columns)):
        df_new.iloc[i, j] = 1
    return df_new


def assign_iloc_product_range(df_orig):
    df_new = df_orig.copy(deep=True)
    for i, j in itertools.product(range(len(df_new.index)), range(len(df_new.columns))):
        df_new.iloc[i, j] = 1
    return df_new


def assign_index(df_orig):
    df_new = df_orig.copy(deep=True)
    for (i, idx_i), (j, idx_j) in itertools.product(enumerate(df_new.index), enumerate(df_new.columns)):
        df_new[idx_j][idx_i] = 1
    return df_new


def assign_column(df_orig):
    df_new = df_orig.copy(deep=True)
    for c, column in df_new.iteritems():
        for idx, val in enumerate(column):
            df_new[c][idx] = 1
    return df_new


def assign_column2(df_orig):
    df_new = df_orig.copy(deep=True)
    for c, column in df_new.iteritems():
        for idx, val in enumerate(column):
            column[idx] = 1
    return df_new


def assign_itertuples(df_orig):
    df_new = df_orig.copy(deep=True)
    for i, row in enumerate(df_new.itertuples()):
        for idx, val in enumerate(row[1:]):
            df_new.iloc[i, idx] = 1
    return df_new


def assign_applymap(df_orig):
    df_new = df_orig.copy(deep=True)
    df_new = df_new.applymap(lambda x: 1)
    return df_new


def assign_vectorized(df_orig):
    df_new = df_orig.copy(deep=True)
    for i in df_new:
        df_new[i] = 1
    return df_new


methods = [
    ('assign_original', assign_original),
    ('assign_loc', assign_loc),
    ('assign_loc_product', assign_loc_product),
    ('assign_iloc_product', assign_iloc_product),
    ('assign_iloc_product_range', assign_iloc_product_range),
    ('assign_index', assign_index),
    ('assign_column', assign_column),
    ('assign_column2', assign_column2),
    ('assign_itertuples', assign_itertuples),
    ('assign_vectorized', assign_vectorized),
    ('assign_applymap', assign_applymap),
]


def get_timings(period=1, methods=()):
    print('=' * 10)
    print(f'generating timings for a period of {period} years')
    df_orig = generate_dummy_data(period)
    df_orig.info(verbose=False)
    repeats = 1
    for method_name, method in methods:
        result = pd.DataFrame()

        def my_method():
            """
            This looks a bit icky, but is the best way I found to make sure the values are really changed,
            and not just on a copy of a DataFrame
            """
            nonlocal result
            result = method(df_orig)

        t = timeit.Timer(my_method).timeit(number=repeats)

        assert result.iloc[3, 3] == 1

        print(f'{method_name} took {t / repeats} seconds')
        yield (method_name, {'time': t, 'memory': result.memory_usage(deep=True).sum()/1024})


periods = [0.03, 0.1, 0.3, 1, 3]


results = {period: dict(get_timings(period, methods)) for period in periods}

print(results)

timings_dict = {period: {k: v['time'] for k, v in result.items()} for period, result in results.items()}

df = pd.DataFrame.from_dict(timings_dict)
df.transpose().plot(logy=True).figure.savefig('test.png')

                              0.03        0.1         0.3         1.0         3.0
assign_applymap               0.001989    0.009862    0.018018    0.105569    0.549511
assign_vectorized             0.002974    0.008428    0.035994    0.162565    3.810138
assign_index                  0.013717    0.137134    1.288852    14.190128   111.102662
assign_column2                0.026260    0.186588    1.664345    19.204453   143.103077
assign_column                 0.016811    0.212158    1.838733    21.053627   153.827845
assign_itertuples             0.025130    0.249886    2.125968    24.639593   185.975111
assign_iloc_product_range     0.026982    0.247069    2.199019    23.902244   186.548500
assign_iloc_product           0.021225    0.233454    2.437183    25.143673   218.849143
assign_loc_product            0.018743    0.290104    2.515379    32.778794   258.244436
assign_loc                    0.029050    0.349551    2.822797    32.087433   294.052933
assign_original               0.034315    0.337207    2.714154    30.361072   332.327008

结论

如果您可以使用矢量化，那就去做吧。根据计算，您可以使用另一种方法。如果您只需要使用的值，applymap 似乎最快。如果您也需要索引和/或列，请使用列

如果你不能向量化，df[column][index] = x 工作最快，用 df.iteritems() 迭代列作为结束第二

关于python - 用值填充非常大的数据框的快速方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45795274/

文章推荐： python - Selenium 测试 - 测试单击按钮是否打开正确的项目

文章推荐： iphone - showInView 导致剪裁

文章推荐： javascript - 选择表行中单击的按钮旁边的 div 文本

ruby-on-rails - 在*非常*简单的应用程序中呈现*非常*简单的部分的问题
更新:随意给我反对票，因为问题是我将文件命名为 _stylesheet.html.erb 而不是 _stylesheets.html.erb。我以为我检查了拼写，但显然我没有。我很抱歉浪费了大家的时间
inno-setup - 当主安装程序(非常)静默运行时，子安装程序(非常)静默运行
我有一个 Inno Script istaller 在其中运行子 setup.exe 。当向主安装程序提供静默安装参数时，我必须向 setup.exe 提供静默安装参数。 Inno脚本运行命令: [R
indexing - 在大型数据库中搜索(非常)近似子串
我正在尝试在大型数据库中搜索长的、近似的子字符串。例如，一个查询可能是一个 1000 个字符的子字符串，它可能与匹配项相差数百个编辑的 Levenshtein 距离。我听说索引 q-gram 可以做到
iphone - iPad(非常)简单的绘图
我正在尝试在我的应用程序中实现一个非常简单的绘图 View 。这只是我的应用程序的一小部分，但它正在变成一个真正的麻烦。这是我到目前为止所拥有的，但它现在显示的只是莫尔斯电码，如点和线。 - (v
MySQL 查询运行*非常*慢
我有一个运行非常慢的 sql 查询，我很困惑为什么。查询是: SELECT DISTINCT(c.ID),c.* FROM `content` c LEFT JOIN `content_meta`
python - 非常 simplejson 解码
我搜索过这个，但我发现的所有结果对我来说都毫无意义，而且似乎太复杂了。我希望使用 json 或 simplejson 模块来获取对象中字符串的值。 string = '{"name": "Alex"}
c - 如何最好地模拟(非常)稀疏的概率密度函数？
我想编写一个流量生成器来复制正在运行的计算机对内存进行的原始读写需求。但是正在运行的计算机在其内存引用中也显示出(非常强的)局部性，并且在 64 位地址空间中，只会引用非常小范围的地址(事实上，我已
java - 当您需要存储(非常)大的数字时该怎么办？
我正在尝试做一个 Project Euler问题，但它涉及添加一个非常大的数字的数字。 (100!) 用Java的int和long太小了。谢谢你的建议最佳答案类 BigInteger看起来它可能
c++ - 物理模拟给出(非常)不准确的简单轨迹微积分位置
我想在游戏中实现一个物理引擎，以便计算物体在受力时的轨迹。该引擎将根据对象的先前状态计算对象的每个状态。当然，这意味着要在两个时间单位之间进行大量计算才能足够精确。为了正确地做到这一点，我首先想知道
C 用对应于索引的值初始化一个(非常)大的整数数组
Edit3:通过将数组的初始化限制为仅奇数进行优化。谢谢@Ronnie! Edit2:谢谢大家，看来我也无能为力了。编辑:我知道 Python 和 Haskell 是用其他语言实现的，并且或多或少地
c - 无需预洗牌即可生成(非常)大的非重复整数序列
背景我有一个我编写的简单媒体客户端/服务器，我想生成一个非显而易见的时间值，我随每个命令从客户端发送到服务器。时间戳将包含相当多的数据(纳秒分辨率，即使由于现代操作系统中定时器采样的限制，它并不真正
可能有*非常*多列的 MySql 表
一位招聘软件工程师的 friend 希望我为他开发一个应用。他希望能够根据技能搜索候选人的简历。正如您想象的那样，可能有数百、可能数千种技能。在表格中表示候选人的最佳方式是什么？我在想 skil
ios - NSURLSession dataTaskWithURL 非常 "slow"
我的意思是“慢”，回调类型等待远程服务器超时以有效触发(调用 vimeo 提要，解析它，然后在场景中显示 uiviews) 我大多不明白它是如何工作的。我希望在返回响应后立即从回调中填充我的 View
具有(非常)快速和可靠切换的 C++ 生产者消费者队列
您好，我正在研究使用快速可靠的生产者消费者队列进行线程切换。我正在使用 VC++ 在 Windows 上工作。我的设计基于 Anthony Williams队列，基本上就是一个带有 boost::c
c# - 具有大或*非常*大文件的 Resharper
我只是想知道您使用 resharper 的经验。我们有一个非常重的 dbml 文件，因为我们的数据库有很多表，每次我需要打开该文件时，我都会收到来自 resharper 的大量异常。以前有人遇到过这个
jquery - 隐藏/显示*非常*慢
我目前正在使用 jQuery 中的隐藏/显示功能来帮助从选择框中将表格过滤成组。实际代码运行良好，但速度非常慢，有时需要一两分钟才能执行。我切换了代码，所以它使用 css({'display':'
c# - Application.GetWindow() *非常*慢
我按顺序调用了以下两个方法(按顺序使用适当的类级别字段) public const string ProcessName = "This is" public const string WindowT
haskell - 有人可以用*非常*简单的术语解释反射包 API 吗？
我很难理解描述反射包的文档/示例。我是一名命令式编程老手，但也是一名 Haskell 新手。你能引导我完成一个非常简单的介绍吗？包裹:https://hackage.haskell.org/pack
.net - 是否有一个*非常*轻量级的 .net IDE？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
python - 使用 Python 操作(非常)长的数据文件
我正在尝试编写一段代码来操作一个很长的文档(超过一百万行)。在这个文本文件中，有固定间隔(每 1003 行)和之间的某些时间戳有我需要的数据，它有 1000 行长，还有一个标题和两个空行，但我不需要。

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 用值填充非常大的数据框的快速方法

.ix

.iterrows

[][]

基准测试

结论