gpt4 book ai didi

python - 根据数字序列将电子表格拆分为多个部分

转载 作者:行者123 更新时间:2023-12-04 10:27:05 24 4
gpt4 key购买 nike

我在电子表格中有一个数据集,它基本上是关于纽约地铁每趟火车的数据。

╔═══════╦══════╦══════════════╦════════════════╦═════════╦═══════════════╦══════════════════╗
║ trip ║ id ║ arrival_time ║ departure_time ║ stop_id ║ stop_sequence ║ Station ║
╠═══════╬══════╬══════════════╬════════════════╬═════════╬═══════════════╬══════════════════╣
║ GO505 ║ 20_2 ║ 0:06:00 ║ 0:06:00 ║ 237 ║ 1 ║ Penn Station ║
║ GO505 ║ 20_2 ║ 0:18:00 ║ 0:18:00 ║ 214 ║ 2 ║ Woodside ║
║ GO505 ║ 20_2 ║ 0:23:00 ║ 0:23:00 ║ 55 ║ 3 ║ Forest Hills ║
║ GO505 ║ 20_2 ║ 0:25:00 ║ 0:25:00 ║ 107 ║ 4 ║ Kew Gardens ║
║ GO505 ║ 20_2 ║ 0:29:00 ║ 0:32:00 ║ 102 ║ 5 ║ Jamaica ║
║ GO505 ║ 20_2 ║ 0:47:00 ║ 0:47:00 ║ 183 ║ 6 ║ Rockville Centre ║
║ GO505 ║ 20_2 ║ 0:50:00 ║ 0:50:00 ║ 225 ║ 7 ║ Baldwin ║
║ GO505 ║ 20_2 ║ 0:53:00 ║ 0:53:00 ║ 64 ║ 8 ║ Freeport ║
║ GO505 ║ 20_2 ║ 0:56:00 ║ 0:56:00 ║ 226 ║ 9 ║ Merrick ║
║ GO505 ║ 20_2 ║ 0:59:00 ║ 0:59:00 ║ 16 ║ 10 ║ Bellmore ║
║ GO505 ║ 20_2 ║ 1:02:00 ║ 1:02:00 ║ 215 ║ 11 ║ Wantagh ║
║ GO505 ║ 20_2 ║ 1:05:00 ║ 1:05:00 ║ 187 ║ 12 ║ Seaford ║
║ GO505 ║ 20_2 ║ 1:07:00 ║ 1:07:00 ║ 136 ║ 13 ║ Massapequa ║
║ GO505 ║ 20_2 ║ 1:09:00 ║ 1:09:00 ║ 135 ║ 14 ║ Massapequa Park ║
║ GO505 ║ 20_2 ║ 1:12:00 ║ 1:12:00 ║ 8 ║ 15 ║ Amityville ║
║ GO505 ║ 20_2 ║ 1:15:00 ║ 1:15:00 ║ 38 ║ 16 ║ Copiague ║
║ GO505 ║ 20_2 ║ 1:18:00 ║ 1:18:00 ║ 117 ║ 17 ║ Lindenhurst ║
║ GO505 ║ 20_2 ║ 1:23:00 ║ 1:23:00 ║ 27 ║ 18 ║ Babylon ║
║ GO505 ║ 20_3 ║ 1:00:00 ║ 1:00:00 ║ 27 ║ 1 ║ Babylon ║
║ GO505 ║ 20_3 ║ 1:05:00 ║ 1:05:00 ║ 117 ║ 2 ║ Lindenhurst ║
║ GO505 ║ 20_3 ║ 1:08:00 ║ 1:08:00 ║ 38 ║ 3 ║ Copiague ║
║ GO505 ║ 20_3 ║ 1:10:00 ║ 1:10:00 ║ 8 ║ 4 ║ Amityville ║
║ GO505 ║ 20_3 ║ 1:13:00 ║ 1:13:00 ║ 135 ║ 5 ║ Massapequa Park ║
╚═══════╩══════╩══════════════╩════════════════╩═════════╩═══════════════╩══════════════════╝

我需要根据 stop_sequence 中的序列以某种方式将其拆分为多个部分。从 1 到 n(此处为 18)的每个序列表示火车的 1 趟行程。因此,例如,我需要计算每次旅行的时间(即每个最后一个 stop_sequence 的离开时间 - 第一个 stop_sequence 的到达时间)(大约有 5,000 个)。我怎么能以某种方式做到这一点?我希望我可以将 python 中的列与 Pandas 分成几次行程并计算每次行程的时间。但我不知道该怎么做。

我的预期输出是

行程编号 ║ 行程持续时间

GO505 20_2 ║ x:xx:xx

GO505 20_3 ║ x:xx:xx

我是数据科学的新手。请帮忙!

最佳答案

范围A:G -> 每趟列车的数据

单元格 I1: =QUERY({ArrayFormula(A:A&" "&B:B),ArrayFormula(VALUE(C:D))},"select Col1,max(Col3)-min(Col2) where Col1!=' ' group by Col1 label max(Col3)-min(Col2) 'Duration of the trip' format max(Col3)-min(Col2) 'hh:mm:ss'")
enter image description here

函数引用

  • Query
  • 关于python - 根据数字序列将电子表格拆分为多个部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60591952/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com