gpt4 book ai didi

python - Pandas - 在每日人口普查数据中查找唯一条目

转载 作者:行者123 更新时间:2023-11-28 17:25:35 25 4
gpt4 key购买 nike

我有整整一个月的人口普查数据,我想知道这个月有多少不同的囚犯。该信息每天获取,因此有多个。

  _id,Date,Gender,Race,Age at Booking,Current Age
1,2016-06-01,M,W,32,33
2,2016-06-01,M,B,25,27
3,2016-06-01,M,W,31,33

我现在的方法是把它们按天分组,然后把没有计入的加入到DataFrame中。我的问题是如何解释具有相同信息的两个人。它们都不会被添加到新的 DataFrame 中,因为它们之一已经存在了吗?我想弄清楚这段时间 jail 里总共有多少人。

_id是递增的,比如这里是第二天的一些数据

2323,2016-06-02,M,B,20,21
2324,2016-06-02,M,B,44,45
2325,2016-06-02,M,B,22,22
2326,2016-06-02,M,B,38,39

此处链接到数据集:https://data.wprdc.org/dataset/allegheny-county-jail-daily-census

最佳答案

您可以使用 df.drop_duplicates() 返回仅包含唯一值的 DataFrame,然后对条目进行计数。

像这样的东西应该可以工作:

import pandas as pd
df = pd.read_csv('inmates_062016.csv', index_col=0, parse_dates=True)

uniqueDF = df.drop_duplicates()
countUniques = len(uniqueDF.index)
print(countUniques)

结果:

>> 11845

Pandas drop_duplicates Documentation

Inmates June 2016 CSV

这种方法/数据的问题在于,可能会有许多年龄/性别/种族相同的囚犯被过滤掉。

关于python - Pandas - 在每日人口普查数据中查找唯一条目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39277501/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com