Python:计算 Pandas Dataframe 中列表的 PMF-6ren

Python:计算 Pandas Dataframe 中列表的 PMF

转载作者：行者123 更新时间：2023-12-01 06:45:45

31

4

我在 pandas 数据框中有以下数据集。我希望提取每个 user_id 的 trajectory 中每个项目的计数，计算/返回每个项目的概率质量函数 (pmf)在列表中，并通过 pmf 返回前 3 个(或任意数量)的项目。所有这些都应该返回到同一个数据帧。

代码:

这是我用来原型(prototype)化我想要完成的任务的代码:

import math
from collections import Counter

cluster = trajs['cluster_label'][0]
#print(user)

counter = Counter(cluster[0])
print(counter)
print("Top 3 clusters: ", counter.most_common(3))

cluster_norm = sum(counter.values(), 0.0)
for key in counter:
    counter[key] /= user_norm
print("PMF:",counter.most_common(5))

计数器({6: 907, 12: 728, 7: 716, 4: 638, 0: 594, 3: 551, 5: 352, 8: 335, 11: 236, 14: 207, 2 : 206、1: 195、16: 190、13: 150、9: 115、10: 78、15: 55、17: 52})

前 3 个集群:[(6, 907)、(12, 728)、(7, 716)]

PMF: [(6, 0.14385408406026962), (12, 0.1154639175257732), (7, 0.11356066613798572), (4, 0.10118953211736717), (0, 0.094210 94369547978)]

我已经能够使用上面的代码手动完成一些条目，但是在迭代整个数据帧(约 14k 行)并将结果格式化为新的数据帧时遇到了一些麻烦。

数据:

user_id,trajectory
431997632,[[28, 215, 278, 213, 432, 238, 122, 188, 401, 401, 289, 264, 468, 401, 537, 401, 34, 191, 469, 471, 609, 506, 254, 144, 451]]
4725565346,[[259, 585, 585, 513, 432, 662, 527, 527, 527, 527, 513, 513, 662, 527, 527, 662, 527, 662, 662, 662, 662, 513]]
1331881832,[[215, 432, 432, 432, 432, 432, 432, 432, 432, 432, 432, 432, 432, 432, 432, 205, 432, 205, 432]]
58637506,[[432, 156, 109, 401, 401, 327, 205, 372, 536, 206, 633, 538, 384, 572, 401, 125]]
1396149025,[[537, 372, 372, 421, 440, 100, 645, 55, 401, 537, 384, 317, 317, 351, 459, 109]]
26412887,[[344, 335, 335, 286, 314, 335, 330, 283, 286, 307, 314, 432, 335, 335, 335]]
3259595431,[[400, 339, 401, 400, 28, 307, 327, 327, 537, 36, 472, 472, 522]]
45429271,[[473, 360, 314, 314, 314, 314, 314, 330, 330, 360, 330, 330]]
22536391,[[609, 407, 384, 470, 485, 415, 384, 384, 466, 403, 388, 388, 388, 432, 415, 408, 314, 513, 311, 464, 473, 473, 467]]
8.13E+17,[[421, 384, 401, 230, 330, 609, 401, 424, 264, 265, 384, 661, 445, 215, 257, 140, 601, 213, 265, 79, 378]]
7.63E+17,[[238, 238, 238, 457, 267, 474, 338, 401, 512, 401, 486, 278, 384, 133, 304, 537, 407, 304, 384]]
98221214,[[432, 432, 88, 432, 384, 215, 259, 384, 522, 259, 384, 432, 384, 384, 384, 384, 384, 384, 384]]
7.20E+17,[[465, 329, 465, 329, 432, 432, 432, 432, 432, 18, 465, 432, 432, 269, 465, 465, 288, 288, 152]]
323346248,[[407, 401, 603, 641, 521, 327, 0, 432, 262, 453, 628, 289, 634, 125, 63, 385, 395, 432, 327]]
4036152552,[[327, 632, 632, 168, 28, 168, 632, 632, 632, 168, 106, 28, 168, 106, 168, 168, 168, 168, 28]]
17281102,[[225, 225, 225, 225, 225, 225, 225, 225, 384, 384, 628, 628, 628, 628, 628, 628, 708, 708]]
24685146,[[396, 330, 330, 330, 396, 330, 330, 330, 330, 330, 330, 330, 330, 330, 330, 264, 264, 330]]
24822125,[[401, 354, 314, 360, 432, 360, 432, 360, 689, 689, 314, 314, 689, 689, 300, 432, 300, 300]]
28477232,[[432, 385, 385, 385, 385, 385, 385, 385, 385, 385, 385, 385, 385, 385, 385, 385, 385, 385]]
136675517,[[410, 404, 466, 527, 473, 403, 410, 503, 503, 485, 467, 463, 458, 384, 384, 384, 384, 384]]
228534984,[[432, 213, 432, 213, 432, 432, 432, 432, 205, 432, 432, 432, 432, 552, 432, 432, 432, 432]]
237564656,[[327, 254, 213, 254, 254, 254, 432, 213, 213, 213, 254, 167, 254, 228, 240, 509, 254, 213]]
423924903,[[267, 432, 609, 342, 432, 432, 199, 122, 150, 372, 265, 432, 194, 456, 401, 401, 432, 401]]
496539092,[[609, 597, 597, 597, 597, 432, 597, 597, 597, 634, 634, 609, 597, 597, 597, 597, 634, 311]]
18193826,[[299, 299, 299, 427, 299, 28, 595, 401, 401, 432, 299, 299, 197, 401]]

最佳答案

不是最有效的方法，但相当简单:

df['counter'] = df.trajectory.apply(lambda x: Counter(x[0]))
df['top3'] = df.counter.apply(lambda x: x.most_common(3))
def pfm(cntr):
    s = sum(cntr.values())
    for key in cntr:
        cntr[key] /= s
    return cntr.most_common(5)
df['pfm_top5'] = df.counter.apply(pfm)
df = df.drop('counter', 1)

结果:

       user_id                                         trajectory                             top3                                           pfm_top5
0    431997632  [[28, 215, 278, 213, 432, 238, 122, 188, 401, ...   [(401, 4), (451, 1), (609, 1)]  [(401, 0.15999999999999995), (451, 0.039999999...
1   4725565346  [[259, 585, 585, 513, 432, 662, 527, 527, 527,...   [(662, 7), (527, 7), (513, 4)]  [(662, 0.3181818181818182), (527, 0.3181818181...
2   1331881832  [[215, 432, 432, 432, 432, 432, 432, 432, 432,...  [(432, 16), (205, 2), (215, 1)]  [(432, 0.8421052631578947), (205, 0.1052631578...
3     58637506  [[432, 156, 109, 401, 401, 327, 205, 372, 536,...   [(401, 3), (384, 1), (327, 1)]  [(401, 0.1875), (384, 0.0625), (327, 0.0625), ...
4   1396149025  [[537, 372, 372, 421, 440, 100, 645, 55, 401, ...   [(372, 2), (537, 2), (317, 2)]  [(372, 0.125), (537, 0.125), (317, 0.125), (38...
5     26412887  [[344, 335, 335, 286, 314, 335, 330, 283, 286,...   [(335, 6), (314, 2), (286, 2)]  [(335, 0.4), (314, 0.13333333333333333), (286,...
6   3259595431  [[400, 339, 401, 400, 28, 307, 327, 327, 537, ...   [(400, 2), (327, 2), (472, 2)]  [(400, 0.15384615384615385), (327, 0.153846153...
7     45429271  [[473, 360, 314, 314, 314, 314, 314, 330, 330,...   [(314, 5), (330, 4), (360, 2)]  [(314, 0.4166666666666667), (330, 0.3333333333...
8     22536391  [[609, 407, 384, 470, 485, 415, 384, 384, 466,...   [(384, 3), (388, 3), (473, 2)]  [(384, 0.1304347826086957), (388, 0.1304347826...
9     8.13E+17  [[421, 384, 401, 230, 330, 609, 401, 424, 264,...   [(384, 2), (265, 2), (401, 2)]  [(384, 0.09523809523809526), (265, 0.095238095...
10    7.63E+17  [[238, 238, 238, 457, 267, 474, 338, 401, 512,...   [(238, 3), (384, 2), (304, 2)]  [(238, 0.15789473684210525), (384, 0.105263157...
11    98221214  [[432, 432, 88, 432, 384, 215, 259, 384, 522, ...  [(384, 10), (432, 4), (259, 2)]  [(384, 0.5263157894736842), (432, 0.2105263157...
12    7.20E+17  [[465, 329, 465, 329, 432, 432, 432, 432, 432,...   [(432, 7), (465, 5), (329, 2)]  [(432, 0.3684210526315789), (465, 0.2631578947...
13   323346248  [[407, 401, 603, 641, 521, 327, 0, 432, 262, 4...     [(327, 2), (432, 2), (0, 1)]  [(327, 0.10526315789473684), (432, 0.105263157...
14  4036152552  [[327, 632, 632, 168, 28, 168, 632, 632, 632, ...    [(168, 8), (632, 5), (28, 3)]  [(168, 0.42105263157894735), (632, 0.263157894...
15    17281102  [[225, 225, 225, 225, 225, 225, 225, 225, 384,...   [(225, 8), (628, 6), (384, 2)]  [(225, 0.4444444444444444), (628, 0.3333333333...
16    24685146  [[396, 330, 330, 330, 396, 330, 330, 330, 330,...  [(330, 14), (264, 2), (396, 2)]  [(330, 0.7777777777777778), (264, 0.1111111111...
17    24822125  [[401, 354, 314, 360, 432, 360, 432, 360, 689,...   [(689, 4), (432, 3), (360, 3)]  [(689, 0.22222222222222218), (432, 0.166666666...
18    28477232  [[432, 385, 385, 385, 385, 385, 385, 385, 385,...            [(385, 17), (432, 1)]  [(385, 0.9444444444444444), (432, 0.0555555555...
19   136675517  [[410, 404, 466, 527, 473, 403, 410, 503, 503,...   [(384, 5), (503, 2), (410, 2)]  [(384, 0.2777777777777778), (503, 0.1111111111...
20   228534984  [[432, 213, 432, 213, 432, 432, 432, 432, 205,...  [(432, 14), (213, 2), (552, 1)]  [(432, 0.7777777777777778), (213, 0.1111111111...
21   237564656  [[327, 254, 213, 254, 254, 254, 432, 213, 213,...   [(254, 7), (213, 5), (432, 1)]  [(254, 0.3888888888888889), (213, 0.2777777777...
22   423924903  [[267, 432, 609, 342, 432, 432, 199, 122, 150,...   [(432, 5), (401, 3), (609, 1)]  [(432, 0.2777777777777778), (401, 0.1666666666...
23   496539092  [[609, 597, 597, 597, 597, 432, 597, 597, 597,...  [(597, 11), (634, 3), (609, 2)]  [(597, 0.6111111111111112), (634, 0.1666666666...
24    18193826  [[299, 299, 299, 427, 299, 28, 595, 401, 401, ...   [(299, 6), (401, 3), (432, 1)]  [(299, 0.42857142857142855), (401, 0.214285714...

关于Python:计算 Pandas Dataframe 中列表的 PMF，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59232444/

31

4

0

文章推荐： emacs - 如何在标记区域内定义键绑定(bind)

文章推荐： python - 为什么我无法导入 re 模块？

文章推荐： jquery - Ajax 从 mvc Controller 发送和获取

文章推荐： jquery - 使用 Bootstrap 让按钮组像单选按钮一样工作

pandas - Pandas 交叉表与 Pandas 数据透视表有何不同？
pandas.crosstab 和 Pandas 数据透视表似乎都提供了完全相同的功能。有什么不同吗？最佳答案 pivot_table没有 normalize争论，不幸的是。在 crosstab
pandas - 从 pandas 值序列创建 pandas 区间序列
我能找到的最接近的答案似乎太复杂:How I can create an interval column in pandas? 如果我有一个如下所示的 pandas 数据框: +-------+ |
pandas - 将一列值移动到另一列 - Pandas
这是我用来将某一行的一列值移动到同一行的另一列的当前代码: #Move 2014/15 column ValB to column ValA df.loc[(df.Survey_year == 201
pandas - 如何将包含 bins 的 pandas 数据框写入文件以便将其读回 pandas？
我有一个以下格式的 Pandas 数据框: df = pd.DataFrame({'a' : [0,1,2,3,4,5,6], 'b' : [-0.5, 0.0, 1.0, 1.2, 1.4,
pandas - Pandas 数据框行上的克罗内克积
所以我有这两个数据框，我想得到一个新的数据框，它由两个数据框的行的克罗内克积组成。正确的做法是什么？举个例子:数据框1 c1 c2 0 10 100 1 11 110 2 12
pandas - Pandas 条形图中的刻度标签重叠
TL;DR:在 pandas 中，如何绘制条形图以使其 x 轴刻度标签看起来像折线图？我制作了一个间隔均匀的时间序列(每天一个项目)，并且可以像这样很好地绘制它: intensity[350:450
pandas - Pandas 中两个时间戳之间的差异
我有以下两个时间列，“Time1”和“Time2”。我必须计算 Pandas 中的“差异”列，即 (Time2-Time1): Time1 Time2
pandas - ( Pandas )根据顺序无关紧要的子集删除重复项
从这个 df 去的正确方法是什么: >>> df=pd.DataFrame({'a':['jeff','bob','jill'], 'b':['bob','jeff','mike']}) >>> df
pandas - Pandas 中唯一值的累积计数
我想按周从 Pandas 框架中的列中累积计算唯一值。例如，假设我有这样的数据: df = pd.DataFrame({'user_id':[1,1,1,2,2,2],'week':[1,1,2,1,
pandas - Pandas 更改数据透视表中列的顺序
数据透视表的表示形式看起来不像我在寻找的东西，更具体地说，结果行的顺序。我不知道如何以正确的方式进行更改。 df示例: test_df = pd.DataFrame({'name':['name_1
pandas - Pandas 中的分组召回
我有一个数据框，如下所示。 Category Actual Predicted 1 1 1 1 0
pandas - 计算从日期时间列到特定日期的天数 - pandas
我有一个 df，如下所示。 df: ID open_date limit 1 2020-06-03 100 1 2020-06-23 500
pandas - 删除不等于唯一项目值的行 - Pandas
我有一个 df ，其中包含与唯一值关联的各种字符串。对于这些唯一值，我想删除不等于单独列表的行，最后一行除外。下面使用 Label 中的各种字符串值与 Item 相关联.所以对于每个唯一的 Item
pandas - Pandas 按索引删除列会删除所有具有相同名称的列
考虑以下具有相同名称的列的数据框（显然，这确实发生了，目前我有一个像这样的数据集！:(） >>> df = pd.DataFrame({"a":range(10,15),"b":range(5,10)
pandas - Pandas DF中的重复行
我在 Pandas 中有一个 DF，它看起来像: Letters Numbers A 1 A 3 A 2 A 1 B 1 B 2
pandas - Pandas 两列之间的时差
如何减去两列之间的时间并将其转换为分钟 Date Time Ordered Time Delivered 0 1/11/19 9:25:00 am 10:58:00 am
pandas - pandas 使用哪种方法计算百分位数？
我试图理解 pandas 中的下/上百分位数计算，但有点困惑。这是它的示例代码和输出。 test = pd.Series([7, 15, 36, 39, 40, 41]) test.describe(
pandas - 如何提取多索引数据帧的索引名称，pandas
我有一个多索引数据框，如下所示: TQ bought HT Detailed Instru
pandas - Pandas :根据字符串计数创建直方图
我需要从包含值“低”，“中”或“高”的数据框列创建直方图。当我尝试执行通常的df.column.hist（）时，出现以下错误。 ex3.Severity.value_counts() Out[85]:
pandas - Pandas 中的子字符串列基于另一列
我试图根据另一列的长度对一列进行子串，但结果集是 NaN .我究竟做错了什么？ import pandas as pd df = pd.DataFrame([['abcdefghi','xyz'],

首页

博学

6Ren·AI

商城

Python:计算 Pandas Dataframe 中列表的 PMF