python - 以定义的概率从 Pandas 群体中采样-6ren

python - 以定义的概率从 Pandas 群体中采样

转载作者：行者123 更新时间：2023-12-01 09:26:43

25

4

考虑以下 Pandas 数据框，

df = pd.DataFrame(
    [
         ['X', 0, 0.5],
         ['X', 1, 0.5],

         ['Y', 0, 0.25],
         ['Y', 1, 0.3],
         ['Y', 2, 0.45],

         ['Z', 0, 0.6],
         ['Z', 1, 0.1],
         ['Z', 2, 0.3]
    ], columns=['NAME', 'POSITION', 'PROB'])

请注意 df为每个唯一的 NAME 定义离散概率分布值即

assert ((df.groupby('NAME')['PROB'].sum() - 1)**2 < 1e-10).all()

我想做的是从这些概率分布中采样。

我们可以想到POSITION作为与概率相对应的值。所以在考虑X时样本将是 0有概率0.5和1有概率0.5 。

我想创建一个包含列 ['NAME', 'POSITION', 'PROB', 'SAMPLE'] 的新数据框代表这些样本。每个独特SAMPLE值代表一个新样本。 PROB现在，column 始终为 0 或 1，表示是否在给定样本中选择了给定行。例如，如果我选择 3 个样本，示例结果如下:

df_samples = pd.DataFrame(
    [
         ['X', 0, 1, 0],
         ['X', 1, 0, 0],
         ['X', 0, 0, 1],
         ['X', 1, 1, 1],
         ['X', 0, 1, 2],
         ['X', 1, 0, 2],

         ['Y', 0, 1, 0],
         ['Y', 1, 0, 0],
         ['Y', 2, 0, 0],
         ['Y', 0, 0, 1],
         ['Y', 1, 0, 1],
         ['Y', 2, 1, 1],
         ['Y', 0, 1, 2],
         ['Y', 1, 0, 2],
         ['Y', 2, 0, 2],

         ['Z', 0, 0, 0],
         ['Z', 1, 0, 0],
         ['Z', 2, 1, 0],
         ['Z', 0, 0, 1],
         ['Z', 1, 0, 1],
         ['Z', 2, 1, 1],
         ['Z', 0, 1, 2],
         ['Z', 1, 0, 2],
         ['Z', 2, 0, 2],
    ], columns=['NAME', 'POSITION', 'PROB', 'SAMPLE'])

当然，由于涉及随机性，这只是众多可能结果之一。

该程序的单元测试是，随着样本的增加，根据大数定律，每个 (NAME, POSITION) 的样本平均数为对，应该趋向于实际概率。人们可以根据所使用的总样本计算一个置信区域，然后确保真实概率位于其中。例如使用 normal approximation to binomial outcomes (要求总样本 n_samples 为“大”)(-4 sd，4 sd)区域测试将是:

z = 4

p_est = df_samples.groupby(['NAME', 'POSITION'])['PROB'].mean()
p_true = df.set_index(['NAME', 'POSITION'])['PROB']

CI_lower = p_est - z*np.sqrt(p_est*(1-p_est)/n_samples)
CI_upper = p_est + z*np.sqrt(p_est*(1-p_est)/n_samples)

assert p_true < CI_upper
assert p_true > CI_lower

在 Pandas 中执行此操作最有效的方法是什么？我感觉我想申请一些sample功能到df.groupby('NAME')对象。

附注

更明确地说，这是使用 Numpy 执行此操作的一种非常冗长的方法。

n_samples = 3
df_list = []
for name in ['X', 'Y', 'Z']:
    idx = df['NAME'] == name
    position_samples = np.random.choice(df.loc[idx, 'POSITION'], 
                                        n_samples, 
                                        p=df.loc[idx, 'PROB'])
    prob = np.zeros([idx.sum(), n_samples])
    prob[position_samples, np.arange(n_samples)] = 1
    position = np.tile(np.arange(idx.sum())[:, None], n_samples)
    sample = np.tile(np.arange(n_samples)[:,None], idx.sum()).T

    df_list.append(pd.DataFrame(
        [[name, prob.ravel()[i], position.ravel()[i], 
          sample.ravel()[i]] 
         for i in range(n_samples*idx.sum())], 
        columns=['NAME', 'PROB', 'POSITION', 'SAMPLE']))

df_samples = pd.concat(df_list)

最佳答案

如果我理解正确的话，您正在寻找 groupby + sample然后是一些索引的东西

概率的第一个样本:

n_samples = 3
df_samples = df.groupby('NAME').apply(lambda x: x[['NAME', 'POSITION']] \
                               .sample(n_samples, replace=True,
                                       weights=x.PROB)) \
                               .reset_index(drop=True)

现在添加额外的列:

df_samples['SAMPLE'] = df_samples.groupby('NAME').cumcount()
df_samples['PROB'] = 1


print(df_samples)

  NAME  POSITION  SAMPLE  PROB
0    X         1       0     1
1    X         0       1     1
2    X         1       2     1
3    Y         1       0     1
4    Y         1       1     1
5    Y         1       2     1
6    Z         2       0     1
7    Z         0       1     1
8    Z         0       2     1

请注意，这不包括初始问题中要求的每个样本的 0 概率位置，但这是一种更简洁的信息存储方式。

如果我们还想包含 0 概率位置，我们可以合并其他位置，如下所示:

domain = df[['NAME', 'POSITION']].drop_duplicates()
df_samples.drop('PROB', axis=1, inplace=True)
df_samples = pd.merge(df_samples, domain, on='NAME', 
                      suffixes=['_sample', ''])
df_samples['PROB'] = (df_samples['POSITION'] ==
                     df_samples['POSITION_sample']).astype(int)
df_samples.drop('POSITION_sample', axis=1, inplace=True)

关于python - 以定义的概率从 Pandas 群体中采样，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50330090/

25

4

0

文章推荐： java - 为什么数字会自动转换为双倍？

文章推荐： r - R中的数据转换

文章推荐： input - 运动和 fswebcam 运行

文章推荐： java - 带 Spring @Async 注解的方法未执行

Python，概率
接下来是我的代码: with open("test.txt") as f_in: for line in f_in: for char in line:
python 概率
我们有一个六面骰子，面编号为 1 到 6。随着 n 的增加，在第 n 卷中第一次看到 1 的概率降低。我想找到最小的卷数，使得这个概率小于某个给定的限制。 def probTest(limit):
python - Numpy 概率
我只是想知道为什么运行下面的代码时出现错误。我正在尝试使用 numpy 为基于文本的游戏计算概率。下面的代码不是游戏本身的代码。这仅用于测试目的和学习。感谢您提前的答复，请对我宽容一点。 from n
sockets - UDP丢包模拟&概率
我目前正在创建一个与多个arduino板通信的服务器软件。由于硬件原因，我使用UDP协议(protocol)。我有一个非常简单的机制，在大多数情况下，当包裹丢失时，它会重新发送包裹。我现在有两个问题:
Android onfling 概率
我想在 LinearLayout 上添加一个 fling Action 。为此，我使用了以下代码。 public class NewsActivity extends Activity { .
Facebook 拼图(概率)
下面是其中一个 facebook 谜题:我无法理解如何进行此操作。你有 C 个容器、B 个黑球和无限数量的白球。您希望以一种方式在容器之间分配球，即每个容器至少包含一个球，并且选择白球的概率大于或等
c# - 概率。关于希伯来语编码
我有一个希伯来语文本，就像 "×گض¸×¨ض´×™×،ض°×ک×•ض¹×ں"，我想将它转换为可读的 unicode 希伯来语字符。我试过这段代码: const string Str = "×گض¸×
Java Random.nextDouble() 概率
我正在尝试使用 Random.nextDouble() 获取 1.0 和 10.0 之间的随机双数: double number = 1.0 + (10.0-1.0) * Random.nextDou
python - 概率 SVM、回归
我目前已经为二进制类实现了概率(至少我这么认为)。现在我想扩展这种回归方法，并尝试将其用于波士顿数据集。不幸的是，我的算法似乎被卡住了，我当前运行的代码如下所示: from sklearn impor
statistics - K 最近邻分类的“概率”
我在 2D 空间中有一小组数据点(大约 10 个)，每个数据点都有一个类别标签。我希望根据现有数据点标签对新数据点进行分类，并关联属于任何特定标签类别的“概率”。基于最近邻的标签来标记新点是否合适(
python - 如何计算给定输入和预期输出的 ctc 概率？
我正在做我的第一个 tensorflow 项目。我需要获得给定输入和预期序列的 ctc 概率(不是 ctc 损失)。在 python 或 c++ 中是否有任何 api 或方法可以做到这一点？我更
python - 如何向量化多维矩阵的 Softmax 概率
我正在尝试通过 assignment 1斯坦福 cs244n 类(class)。问题 1b 强烈建议对 Softmax 函数进行优化。我设法得到了N维向量的Softmax。我还得到了 MxN 维矩阵的
需要算法帮助! [概率、分布、序列分析。]
我有一个预测算法的想法，该算法可以根据所选项目先前出现的顺序准确预测随机值，并分析模式以提高准确性。基本上是一种接受两个参数的算法，一个是一组可能的选择；另一个是这些数字的历史，分析该模式并预测序列
java - 为什么此代码适用于此 TopCoder 概率？
自 HOURS 以来，我一直在努力思考这个 TopCoder 问题，但无法找到一个完美的解决方案，并找到了下面给出的一个使用得非常漂亮的解决方案! 我想弄清楚这个解决方案如何适用于给定的问题？而我当初
c# - 生成随机 boolean 概率
我只知道如何生成随机 boolean 值(真/假)。默认概率为 50:50 但是我怎样才能用我自己的概率生成真假值呢？假设它以 40:60 或 20:80 等的概率返回 true... 最佳答案一种
julia - 使用 z 分数计算百分位数/概率
对于以下示例，我如何计算 julia 中的百分位数/概率值/尾部区域 Example : N(1100, 200) #Normally distributed with mean 1100 & st
machine-learning - 概率 kNN 和朴素贝叶斯之间的区别
我正在尝试修改标准 kNN 算法来获取属于某个类别的概率，而不仅仅是通常的分类。我还没有找到太多关于概率 kNN 的信息，但据我了解，它的工作原理与 kNN 类似，不同之处在于它计算给定半径内每个类的
PostgreSQL 概率 : EXPLAIN on CREATE INDEX
我正在使用 PostgreSQL 为我所有数据中的变量对计算经验概率密度函数。我试图确定在计算 PDF 之前索引是否/何时更有效。我像这样运行 EXPLAIN CREATE INDEX， EXPLAI
mysql - 概率。使用 tquery.requeSTLive
有谁知道当查询有偏移时如何在 MySql 中请求“实时结果集”(例如:select * from table limit 10 offset 20;)。它正在经历类似的错误 'invalid use
c - 我试图获得 2 个数字的组合(概率)
unsigned long long int first( int b , int c){ int h=b; //int k; for(int k=b-1;k>c;k--){ b=b*k;

首页

博学

6Ren·AI

商城

python - 以定义的概率从 Pandas 群体中采样