python - 每列中的变量 fillna()-6ren

python - 每列中的变量 fillna()

转载作者：行者123 更新时间：2023-11-28 18:57:49

25

4

对于初学者，这里有一些符合我的问题的人工数据:

df = pd.DataFrame(np.random.randint(0, 100, size=(vsize, 10)), 
          columns = ["col_{}".format(x) for x in range(10)], 
          index = range(0, vsize * 3, 3))

df_2 = pd.DataFrame(np.random.randint(0,100,size=(vsize, 10)), 
            columns = ["col_{}".format(x) for x in range(10, 20, 1)], 
            index = range(0, vsize * 2, 2))

df = df.merge(df_2, left_index = True, right_index = True, how = 'outer')

df_tar = pd.DataFrame({"tar_1": [np.random.randint(0, 2) for x in range(vsize * 3)], 
               "tar_2": [np.random.randint(0, 4) for x in range(vsize * 3)], 
               "tar_3": [np.random.randint(0, 8) for x in range(vsize * 3)], 
               "tar_4": [np.random.randint(0, 16) for x in range(vsize * 3)]})

df = df.merge(df_tar, left_index = True, right_index = True, how = 'inner')

现在，我想在每列中填充 NaN 值，在每列中使用非 NaN 值的 MEDIAN 值，但向该列中每个填充的 NaN 添加噪声。应该为该列中属于同一类的值计算 MEDIAN 值，如首先在列 tar_4 中标记的那样。然后，如果列中存在任何 NaN(因为列中的某些值都在 tar_4 类中，只有 NaN，所以无法计算 MEDIAN)，在更新的列上重复相同的操作(一些 NaN 已经填充)来自 tar_4 操作)，但具有相对于 tar_3 列属于同一类的值。然后是 tar_2 和 tar_1。

我想象的方式如下:

col_1 特征，例如6 个非 Nan 和 4 个 NaN 值:[1, 2, NaN, 4, NaN, 12, 5, NaN, 1, NaN]
只有值 [1, 2, NaN, 4, NaN] 属于 tar_4 中的同一类(例如类 1)，因此它们被插入 NaN 填充:
- 索引 [2] 处的 NaN 值填充有 MEDIAN (=2) + random(-3, 3) * col_1 中分布的标准误差，例如2 + (1 * 1.24)
- 索引 [4] 处的 NaN 值用 MEDIAN (=2) + random(-3, 3) * col_1 中的标准分布误差填充，例如2 + (-2 * 1.24)
现在 col_1 有以下 8 个非 NaN 值和 2 个 NaN 值:[1, 2, 1.24, 4, -0.48, 12, 5, NaN, 1, NaN]
列 col_1 仍然具有一些 NaN 值，因此应用基于 tar_3 列中公共(public)类的分组:
- 在 [1, 2, 1.24, 4, -0.48, 12, 5, NaN, 1, NaN] 中，值 [1, 2, 1.24, 4, -0.48, 12, 5, NaN] 在现在同一个类(class)，所以他们得到处理:
- 索引 [7] 处的 NaN 值被分配为索引 [0-6] (=2) + random(-3, 3) * std error 中值的 MEDIAN，例如2 + 2 * 3.86
现在 col_1 有 9 个非 NaN 值和 1 个 NaN 值:[1, 2, 1.24, 4, -0.48, 12, 5, 9.72, 1, NaN]
- col_1 中的所有值都属于基于 tar_2 列的同一类，因此索引 [9] 处的 NaN 值使用相同的逻辑进行处理，如上所述，并以值 2 * (-1 * 4.05)
col_1 现在只有非 NaN 值:[1, 2, 1.24, 4, -0.48, 12, 5, 9.72, 1, -6.09]，不需要基于 tar_1 进行 NaN 填充推送专栏。

相同的逻辑贯穿其余的列。

因此，预期输出:填充了 NaN 值的 DataFrame，在基于列 tar_4 - tar_1 的类粒度级别递减的每一列中。

我已经有了一个代码，它实现了这一点，感谢@Quang Hoang:

def min_max_check(col):
    if ((df[col].dropna() >= 0) & (df[col].dropna() <= 1.0)).all():
        return medians[col]
    elif (df[col].dropna() >= 0).all():
        return medians[col] + round(np.random.randint(low = 0, high = 3) * stds[col], 2)
    else:
        return medians[col] + round(np.random.randint(low = -3, high = 3) * stds[col], 2)


tar_list = ['tar_4', 'tar_3', 'tar_2', 'tar_1']
cols = [col for col in df.columns if col not in tar_list]
# since your dataframe may not have continuous index
idx = df.index

for tar in tar_list:
    medians = df[cols].groupby(by = df[tar]).agg('median')
    std = df[cols].groupby(by = df[tar]).agg(np.std)
    df.set_index(tar, inplace=True)
    for col in cols:
        df[col] = df[col].fillna(min_max_check(col))
    df.reset_index(inplace=True)

df.index = idx

但是，这只会在每个粒度级别使用相同的 MEDIAN 值 + 噪声填充 NaN 值。如何增强此代码以便为每个 NaN 值生成不同的填充值，例如tar_4、tar_3、tar_2 和 tar_1 级别？

最佳答案

一个快速的解决方案是将每一行的 min_max_check 修改为 get_noise:

def gen_noise(col):
    num_row = len(df)

    # generate noise of the same height as our dataset
    # notice the size argument in randint
    if ((df[col].dropna() >= 0) & (df[col].dropna() <= 1.0)).all():
        noise = 0
    elif (df[col].dropna() >= 0).all():
        noise =  np.random.randint(low = 0, 
                                   high = 3, 
                                   size=num_row)
    else:
        noise =  np.random.randint(low = -3, 
                                   high = 3,
                                   size=num_row)

    # multiplication with isna() forces those at non-null values in df[col] to be 0
    return noise * df[col].isna()

然后:

df.set_index(tar, inplace=True)

for col in cols[:1]:
    noise = gen_noise(col)
    df[col] = (df[col].fillna(medians[col])
                      .add(noise.mul(stds[col]).values)
              )

df.reset_index(inplace=True)

注意:您可以进一步修改代码，生成与 medians 和 stds 大小相同的 noise_df，一些像这样

for tar in tar_list:
    medians = df[cols].groupby(df[tar]).agg('median')
    stds = df[cols].groupby(df[tar]).agg('std')

    # generate noise_df here
    medians = medians + round(noise_df*std, 2)

    df.set_index(tar, inplace=True)

    for col in cols[:1]:
        df[col] = df[col].fillna(medians[col])    

    df.reset_index(inplace=True)

df.index = idx

关于python - 每列中的变量 fillna()，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56178297/

25

4

0

文章推荐： html - 如何使元素超出其父元素的范围？

文章推荐： Python3 Panda's Holiday 无法找到过去任意时期的日期

python - Fillna 如果出现频率最高，则 fillna 为整个列中出现频率最高的值
我有一个 Pandas 数据框 City State 0 Cambridge MA 1 NaN DC 2 Boston MA
python - 如何用列名替换类别的 fillna？
我有一个 pandas 数据框，我想用 'colname_miss' 字符串填充缺失的类别。 def FillCatMissing(df): cols = ['A','B','C']
python - 每列中的变量 fillna()
对于初学者，这里有一些符合我的问题的人工数据: df = pd.DataFrame(np.random.randint(0, 100, size=(vsize, 10)), col
python - fillna 可以接受一个函数还是只接受给定的方法？
fillna可以接受一个函数吗？或者只是“backfill”、“bfill”等方法？ http://pandas.pydata.org/pandas-docs/stable/generated/pan
python - 如何在分组数据框上使用 fillna？
我想在多索引数据帧上使用 fillna，并仅在特定列位于同一索引中时填充该列。下一个索引可能以 n/a 开头，因此我无法在该列上调用 fillna 。组的大小正在变化，因此我无法通过数量来限制功能。
python - fillna 没有给出预期的结果
我正在尝试替换 pandas 数据框中的 NaT。 orders.PAID_AT 0 NaT 1 NaT 2
Python Pandas fillna()
我有一个大型数据框，其值如下: Name A B C D E F G # Coulmns Matt 1 n n n 5 n 5 # rows Jake n n 2
python - 我如何使用类别中值进行 df.fillna
我有一个大约 100 万行的大型数据集，大约有 5000 个缺失坐标(我想用类别“城市”的中值填充它们，但 fillna 正在工作，如何实现它？ city = ['London', 'Paris',
pandas - 如何使用条件执行 pd.fillna()
我正在尝试用 if 条件做一个 fillna Fimport pandas as pd df = pd.DataFrame(data={'a':[1,None,3,None],'b':[4,None,
python - pandas fillna 按顺序一步一步
我有如下数据框 Re_MC,Fi_MC,Fin_id,Res_id, 1,2,3,4 ,7,6,11 11,,31,32 ,,35,38 df1 = pd.read_clipboard(sep
python - 带有递增值的 Pandas fillna
我有一个数据框，其中有一列连续但不相邻的数字和缺失值。我想使用 fillna 函数用前一个非缺失行的增量值填充缺失值。这是一个简化的表格: index my_counter 0 1 1
python - pandas 数据框中的条件 fillna()
我有以下两个数据框 df1和 df2df1: A B C D 1 Nora NaN Japan 2 Neo NaN India 3
python - Pandas fillna 和滚动平均值
我试图填充所有缺失值，直到数据帧结束，但无法这样做。在下面的示例中，我取了最后三个值的平均值。我的代码只填充到 2017-01-10，而我想填充到 2017-01-14。对于 1/14，我想使用 11
python - 最近日期的 Pandas fillna
我有一个关于给定主题的报告数据框。每份报告都有一个分数，受试者在某些日期有分数，但在其他日期没有分数。我想创建一个新的数据框，它只包含每个主题的最新分数。下面是一个 MRE。原始数据框如下所示:
python - Fillna 一次使用多种方法 - pandas
我有一个如下所示的数据框 df = pd.DataFrame({'person_id': [101,101,101,101,202,202,202],
python - 为什么 fillna 不能按预期模式工作
我正在处理一个汽车销售数据集，其中包含以下列:'car'、'price'、'body'、'mileage'、'engV'、'engType'、'registration'、'year'、'model'
python - pandas fillna 不适用于数据集的子集
我想估算 df['box_office_revenue'] 的缺失值中位数由 df['release_date'] == x 指定和df['genre'] == y 。下面是我的中值查找函数。 de
python - Pandas fillna 到空字典
我有一个带有“元数据”列的 Pandas 数据框，该列应包含字典作为值。但是，某些值丢失并设置为 NaN。我希望这是 {}。有时，整个列都丢失了，将其初始化为 {} 也是有问题的。用于添加列 tsp
python - Pandas - 具有行子集的 fillna
我正在尝试在特定条件适用的情况下用 0 填充某些行。我正在尝试: df.loc[:,(df.Available == True) & (df.Intensity.isnull())].Intensit
python - 多索引系列上的 Pandas fillna
带有 NA 的 series_A 由一个 MultiIndex (X, Y) 索引，而要填写的值在 Series_B 中，它由 X 索引。如何有效解决此类问题？例如，这里是series_A: bar

首页

博学

6Ren·AI

商城

python - 每列中的变量 fillna()