gpt4 book ai didi

python - 如果值计数低于阈值,则将列值映射到 'miscellaneous' - 分类列 - Pandas Dataframe

转载 作者:行者123 更新时间:2023-11-28 22:16:31 25 4
gpt4 key购买 nike

我有一个形状为 ~ [200K, 40] 的 Pandas 数据框。数据框有一个分类列(许多列之一),其中包含超过 1000 个唯一值。我可以使用以下方法可视化每个此类唯一列的值计数:

df['column_name'].value_counts()

我现在如何将值(value)观与:

  • value_count 小于阈值,比如 100,并将它们映射到,比如“杂项”?
  • 或基于累计行数 % ?

最佳答案

您可以从 value_counts 的索引中提取要屏蔽的值,然后使用 replace 将它们映射到“杂项” :

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randint(0, 10, (2000, 2)), columns=['A', 'B'])

frequencies = df['A'].value_counts()

condition = frequencies<200 # you can define it however you want
mask_obs = frequencies[condition].index
mask_dict = dict.fromkeys(mask_obs, 'miscellaneous')

df['A'] = df['A'].replace(mask_dict) # or you could make a copy not to modify original data

现在,使用 value_counts 会将所有低于阈值的值归为杂项:

df['A'].value_counts()

df['A'].value_counts()
Out[18]:
miscellaneous 947
3 226
1 221
0 204
7 201
2 201

关于python - 如果值计数低于阈值,则将列值映射到 'miscellaneous' - 分类列 - Pandas Dataframe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52164441/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com