pandas - 在 pandas 中向量化可变长度的先行循环-6ren

pandas - 在 pandas 中向量化可变长度的先行循环

转载作者：行者123 更新时间：2023-12-02 02:45:11

24

4

这是我的数据的一个非常简化的版本:

+----+---------+---------------------+
|    | user_id | seconds_since_start |
+----+---------+---------------------+
|  0 |       1 |                  10 |
|  1 |       1 |                  12 |
|  2 |       1 |                  15 |
|  3 |       1 |                  52 |
|  4 |       1 |                  60 |
|  5 |       1 |                  67 |
|  6 |       1 |                 120 |
|  7 |       2 |                  55 |
|  8 |       2 |                  62 |
|  9 |       2 |                 105 |
| 10 |       3 |                 200 |
| 11 |       3 |                 206 |
+----+---------+---------------------+

这是我想要生成的数据:

+----+---------+---------------------+-----------------+------------------+
|    | user_id | seconds_since_start | session_ordinal | session_duration |
+----+---------+---------------------+-----------------+------------------+
|  0 |       1 |                  10 |               1 |                5 |
|  1 |       1 |                  12 |               1 |                5 |
|  2 |       1 |                  15 |               1 |                5 |
|  3 |       1 |                  52 |               2 |               15 |
|  4 |       1 |                  60 |               2 |               15 |
|  5 |       1 |                  67 |               2 |               15 |
|  6 |       1 |                 120 |               3 |                0 |
|  7 |       2 |                  55 |               1 |                7 |
|  8 |       2 |                  62 |               1 |                7 |
|  9 |       2 |                 105 |               2 |                0 |
| 10 |       3 |                 200 |               1 |                6 |
| 11 |       3 |                 206 |               1 |                6 |
+----+---------+---------------------+-----------------+------------------+

我对 session 的概念是来自单个用户的一组事件，这些事件发生的时间间隔不超过 10 秒， session 的持续时间定义为 session 中第一个事件与最后一个事件之间的差异(以秒为单位) .

我已经编写了可以实现我想要的功能的 Python。

import pandas as pd

events_data = [[1, 10], [1, 12], [1, 15], [1, 52], [1, 60], [1, 67], [1, 120], 
    [2, 55], [2, 62], [2, 105], 
    [3, 200], [3, 206]]
events = pd.DataFrame(data=events_data, columns=['user_id', 'seconds_since_start'])

def record_session(index_range, ordinal, duration):
    for i in index_range:
        events.at[i, 'session_ordinal'] = ordinal
        events.at[i, 'session_duration'] = duration

session_indexes = []
current_user = previous_time = session_start = -1
session_num = 0
for i, row in events.iterrows():
    if row['user_id'] != current_user or (row['seconds_since_start'] - previous_time) > 10:
        record_session(session_indexes, session_num, previous_time - session_start)
        session_indexes = [i]
        session_num += 1
        session_start = row['seconds_since_start'] 
    if row['user_id'] != current_user:
        current_user = row['user_id']
        session_num = 1
    previous_time = row['seconds_since_start']
    session_indexes.append(i)
record_session(session_indexes, session_num, previous_time - session_start)

我的问题是运行时间太长。正如我所说，这是我的数据的一个非常简化的版本，我的实际数据有 70,000,000 行。有没有一种方法可以矢量化(并因此加速)像这样的基于可变长度前瞻制定额外列的算法？

最佳答案

你可以试试:

# Create a helper boolean Series
s = df.groupby('user_id')['seconds_since_start'].diff().gt(10)

df['session_ordinal'] = s.groupby(df['user_id']).cumsum().add(1).astype(int)

df['session_duration'] = (df.groupby(['user_id', 'session_ordinal'])['seconds_since_start']
                          .transform(lambda x: x.max() - x.min()))

[输出]

    user_id  seconds_since_start  session_ordinal  session_duration
0         1                   10                1                 5
1         1                   12                1                 5
2         1                   15                1                 5
3         1                   52                2                15
4         1                   60                2                15
5         1                   67                2                15
6         1                  120                3                 0
7         2                   55                1                 7
8         2                   62                1                 7
9         2                  105                2                 0
10        3                  200                1                 6
11        3                  206                1                 6

关于pandas - 在 pandas 中向量化可变长度的先行循环，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55646355/

24

4

0

文章推荐： r - 列的乘积，按行，动态列输入 - 矢量化操作

文章推荐： dictionary - 无法在 mapbox GL 上渲染矢量点

文章推荐： kubernetes - 无法将elasticsearch作为kubernetes集群中的持久卷

python - 将键-长度-值 (KLV) 字符串拆分为键、长度、值的小列表
将 KLV 字符串拆分为键、长度、值作为元素的列表/元组的更有效方法是什么？为了添加一点背景，前 3 位数字作为键，接下来的 2 位表示值的长度。我已经能够使用以下代码解决该问题。但我不认为我的代
javascript - 上传前如何获取视频的元数据(长度)？
首先，我试图从文件中提取视频持续时间，然后在无需实际上传文件的情况下显示它。当用户选择视频时 - 信息将显示在其下方，包括文件名、文件大小、文件类型。不管我的技能多么糟糕 - 我无法显示持续时间。我
scala - 获取数组列的大小/长度
我是 Scala 编程新手，这是我的问题:如何计算每行的字符串数量？我的数据框由一列 Array[String] 类型组成。 friendsDF: org.apache.spark.sql.DataF
javascript - 查找上传到React应用程序的音频文件的持续时间/长度
我有一个React Web应用程序(create-react-app)，该应用程序使用react-hook-forms上传歌曲并使用axios将其发送到我的Node / express服务器。我想确
Java - 如何将网络掩码转换为位/长度
如果给你一个网络掩码(例如 255.255.255.0)，你如何在 Java 中获得它的长度/位(例如 8)？最佳答案如果您想找出整数低端有多少个零位，请尝试 Integer.numberOfTr
追加和删除点击时的 Jquery 长度
我需要使用 jQuery 获取 div 数量的长度。我可以得到它，但在两个单击事件中声明变量，但这似乎是错误的，然后我还需要使用它来根据数字显示隐藏按钮。我觉得我不必将代码加倍。在这里摆弄 htt
python散点图面积大小比例 Axis 长度
我对此感到非常绝望，到目前为止我在 www 上找不到任何东西。情况如下: 我正在使用 Python。我有 3 个数组:x 坐标、y 坐标和半径。我想使用给定的 x 和 y 坐标创建散点图。到目
jQuery:动态加载元素的大小/长度
我有一个表单，我通过 jQuery 的加载函数动态添加新的输入和选择元素。有时加载的元素故意为空，在这种情况下我想隐藏容器 div，这样它就不会破坏样式。问题是，我似乎无法计算加载的元素，因此不知道
jQuery 长度 > 0
我决定通过替换来使我的代码更清晰 if (wrappedSet.length > 0) 类似 if (wrappedSet.exists()) 是否有任何 native jq 函数可以实现此目的？或者
MySQL更改 key 长度
简单的问题。如果我有一个如下表: CREATE TABLE `exampletable` ( `id` int(11) NOT NULL AUTO_INCREMENT, `textfield`
mysql - 参数化查询中的数据类型/长度
我正在使用经典 ASP/MySQL 将长用户输入插入到我的数据库中，该输入是从富文本编辑器生成的。该列设置为 LONG-TEXT。作为参数化查询(准备语句)的新手，我不确定用于此特定查询的数据长度。
javascript - 如何在文本输入字段上设置自动宽度/长度？
我正在获取 Stripe 交易费用的值(value)并通过禁用的文本字段显示它。由于输入文本域，句子出现较大空隙 This is the amount $3.50____________that n
css - 背景大小包含 AND 长度
我有一个 div，其背景图像的大小设置为包含。但是，图像是视网膜计算机(Macbook Pro 等)的双分辨率图像，所以我希望能够以某种方式让页面知道即使我说的是背景大小:包含 200x200 图像，
javascript - 从dom中删除元素时如何更改计数器/长度
我正在开发一个具有“已保存”和“已完成”模块的小部件。当我删除元素时，它会从 dom 中删除/淡化它，但是当我将其标记为完成时，它会将其克隆到已完成的选项卡。这工作很棒，但顶部括号内的数字不适合我。这
android JSONArray 长度
我有一个来自 json 提要的数组，我知道在 jArray 中有一个联盟，但我需要计算出该数组的计数，以防稍后将第二个添加到提要中。目前 log cat 没有注销“teamFeedStructure”
嵌套列表的 Javascript 长度
目标:给定一个混合类型的数组，确定每个级别的元素数量。如果同一层有两个子数组，则它们的每个元素都计入该层元素的总数。方法: Array.prototype.elementsAtLevels = fu
java - 测量Java中单链表的大小/长度？
我需要帮助为 Java 中的单链表制作 int size(); 方法。这是我目前所拥有的，但它没有返回正确的列表大小。 public int size() { int size = 0;
Java DataInputStream 长度
我正在为学校作业创建一个文件服务器应用程序。我目前拥有的是一个简单的 Client 类，它通过 TCP 发送图像，还有一个 Server 类接收图像并将其写入文件。这是我的客户端代码 import
haskell - 理解(,)<$>长度<*>头部的类型
我有这对功能 (,) length :: Foldable t => t a -> b -> (Int, b) 和， head :: [a] -> a 我想了解的类型 (,) length he
github - 如何在Jekyll's Liquid模板中比较字符串大小/长度？
我正在GitHub Pages上使用Jekyll来构建博客，并希望获得传递给YAML前题中Liquid模板的page.title字符串的长度，该字符串在每个帖子的YAML主题中。我还没有找到一种简单的

首页

博学

6Ren·AI

商城

pandas - 在 pandas 中向量化可变长度的先行循环