python - 给定现有分布，我如何使用 X 的标准绘制大小为 N 的样本？-6ren

python - 给定现有分布，我如何使用 X 的标准绘制大小为 N 的样本？

转载作者：行者123 更新时间：2023-12-04 10:41:15

26

4

我有一个现有的值分布，我想绘制大小为 5 的样本，但是这 5 个样本需要在某个容差范围内具有 X 的标准值。例如，我需要 5 个 std 为 10 的样本(即使总体分布为 std=~32)。

下面的示例代码有些工作，但对于大型数据集来说很慢。它随机采样分布，直到找到接近目标标准的东西，然后删除这些元素，以便它们不能再次绘制。

有没有更聪明的方法来正确和更快地做到这一点？它适用于某些 target_std(高于 6)，但在低于 6 时不准确。

import numpy as np
import matplotlib.pyplot as plt
np.random.seed(23)

# Create a distribution
d1 = np.random.normal(95, 5, 200)
d2 = np.random.normal(125, 5, 200)
d3 = np.random.normal(115, 10, 200)
d4 = np.random.normal(70, 10, 100)
d5 = np.random.normal(160, 5, 200)
d6 = np.random.normal(170, 20, 100)
dist = np.concatenate((d1, d2, d3, d4, d5, d6))
print(f"Full distribution: len={len(dist)}, mean={np.mean(dist)}, std={np.std(dist)}")
plt.hist(dist, bins=100)
plt.title("Full Distribution")
plt.show();


batch_size = 5
num_batches = math.ceil(len(dist)/batch_size)
target_std = 10
tolerance = 1
# how many samples to search
num_samples = 100
result = []

# Find samples of batch_size that are closest to target_std
for i in range(num_batches):
    samples = []
    idxs = np.arange(len(dist))
    for j in range(num_samples):
        indices = np.random.choice(idxs, size=batch_size, replace=False)
        sample = dist[indices]
        std = sample.std()
        err = abs(std - target_std)
        samples.append((sample, indices, std, err, np.mean(sample), max(sample), min(sample)))
        if err <= tolerance:
            # close enough, stop sampling
            break
    # sort by smallest err first, then take the first/best result
    samples = sorted(samples, key=lambda x: x[3])
    best = samples[0] 
    if i % 100 == 0:
        pass
        print(f"{i}, std={best[2]}, err={best[3]}, nsamples={num_samples}")
    result.append(best)
    # remove the data from our source
    dist = np.delete(dist, best[1])

df_samples = pd.DataFrame(result, columns=["sample", "indices", "std", "err", "mean", "max", "min"])

df_samples["err"].plot(title="Errors (target_std - batch_std)")
batch_std = df_samples["std"].mean()
batch_err = df_samples["err"].mean()
print(f"RESULT: Target std: {target_std}, Mean batch std: {batch_std}, Mean batch err: {batch_err}")

最佳答案

由于您的问题不限于某个分布，因此我使用正态随机分布，但这应该适用于任何分布。然而，运行时间将取决于人口规模。

population = np.random.randn(1000)*32
std = 10.
tol = 1.
n_samples = 5
samples = list(np.random.choice(population, n_samples))
while True:
    center = np.mean(samples)
    dis = [abs(i-center) for i in samples]
    if np.std(samples)>(std+tol):
        samples.pop(dis.index(max(dis)))
    elif np.std(samples)<(std-tol):
        samples.pop(dis.index(min(dis)))
    else:
        break
    samples.append(np.random.choice(population, 1)[0])

下面是代码的工作原理。
一、抽奖 n_samples ，可能std不在你想要的范围内，所以我们计算每个样本到均值的均值和绝对距离。然后，如果 std 大于所需值加上容差，我们踢最远的样本并绘制一个新的样本，反之亦然。

请注意，如果这需要太多时间来计算您的数据，则在剔除异常值后，您可以计算应该在总体中绘制的下一个元素的范围，而不是随机取一个。希望这对你有用。

免责声明:这不再是随机抽奖，您应该意识到抽奖是有偏见的，不能代表人口。

关于python - 给定现有分布，我如何使用 X 的标准绘制大小为 N 的样本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59920364/

26

4

0

文章推荐： R 将字符串 "Jan\n1990"转换为日期格式

文章推荐：使用 CocoaPods 时的 Xcode 12 部署目标警告

文章推荐： java - 在 jackson 代码中用 2 位秒打印时间戳

perl - 给定/当值未定义时
在下面的代码中，我得到一个 uninitialized value警告，但仅限于第二个 given/when例子。为什么是这样？ #!/usr/bin/env perl use warnings; u
perl - 给定/何时的哪些部分是实验性的？
整个“开关”功能是否已成为实验性的？在没有 Perl 的 future 版本破坏我的代码的情况下，我可以依赖其中的某些部分吗？一般来说，将稳定功能更改为实验性的政策是什么？背景use feature
c++ - 条件语句(给定)
有没有办法在一个条件语句中写出如下语句？ a和b不能同时等于5。 (a可以是5，b可以是5，但是a AND b不能是5) 最佳答案正如克里斯指出的那样，您要查找的是逻辑异或，相当于逻辑不等于 !=:
给定 n 条线查找所有线段交点的算法
我正在寻找一种算法来找到给定 n 条线段的所有交点。以下是来自 http://jeffe.cs.illinois.edu/teaching/373/notes/x06-sweepline.pdf 的伪
python - 给定 k 个标记的最大项目
数组中有 N 个元素。我可以选择第一项最多 N 次，第二项最多选择 N-1 次，依此类推。我有 K 个 token 要使用并且需要使用它们以便我可以拥有最大数量的项目。 arr = [3, 4, 8
python - 给定 Spacy 中的引理是否有可能获得单词列表？
我正在尝试修复法语文本中的语法性别，想知道是否有办法从某个词条中获取所有单词的列表，以及是否可以在此类列表中进行查找？最佳答案尝试: import spacy lemma_lookup = spa
winapi - 给定 HWND，如何从所有者绘制的窗口中提取文本信息？
我正在为 Win32 编写一个简单的自动化测试应用程序。它作为一个单独的进程运行，并通过 Windows API 访问目标应用程序。我可以阅读窗口层次结构，查找标签和文本框，并通过发送/发布消息等来单
javascript - 给定 JSON 中的第一行是什么？
在 nodeJs 中使用 Sequelize 时，我从 Sequelize 收到此错误，如下所示: { [SequelizeUniqueConstraintError: Validation erro
python - 给定 CNN 的回归激活映射
本文https://arxiv.org/pdf/1703.10757.pdf使用回归激活映射 (RAM) - 而不是类激活映射 (CAM) 来解决问题。有几篇文章描述了如何实现 CAM。但是我找不到
ios - 给定 mach_header 我如何找到二进制图像名称？
我正在研究 Mach 动态链接器 dyld。这个问题适用于所有 Apple 平台，但很高兴得到特定于平台的答案；我正在使用 ObjC，但如果对你有用的话，我也很乐意翻译 Swift。 The rele
instagram - 给定 user_id，如何找到用户名？
我有一个包含数千个 Instagram 用户 ID 的列表。我如何获得他们的 Instagram 用户名/句柄？最佳答案你必须使用这个 Instagram API: https://api.ins
scala - 给定 Elasticsearch 无效模式
我在下面的代码: def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName("Spark-Hbase").s
excel - 给定 2 个日期时查找单元格范围
我有一个表格，其中包含从 1 到 10 的数字。(从 D2 到 M2) 假设A1中有03/09/2019 并且在B1中有06/09/2019 并且在C1中有Hello 在A 列中，我有多个系列的单词，
java - 给定 URI 的注释检索
我想在给定服务对应的 URI 的情况下检索服务的注释(特别是 @RolesAllowed )。这是一个例子: 服务: @GET @Path("/example") @RolesAllowed({ "B
oracle - 给定 JDBC 连接上的并发查询？
我看到 OraclePreparedStatementexecuteQuery() 表现出序列化。也就是说，我想使用相同的连接对 Oracle 数据库同时运行两个查询。然而，OraclePrepare
java - 给定 k，使用递归求几何和
import java.util.Scanner; public class GeometricSumFromK { public static int geometricSum(int k,
java - 给定 HttpServletRequest 的网页服务的良好模式是什么？
我创建了一个抽象基类Page，它说明了如何构建动态网页。我正在尝试想出一种基于作为 HttpServletRequest 传入的 GET 请求生成 Page 的好方法。例如... public cla
java - 给定 SMS 字符串的正则表达式是什么
我的字符串是一条短信，采用以下两种格式之一: 潜在客户短信: 您已收到 1 条线索标题:我的领导潜在客户 ID:12345-2365 警报设置 ID:890 短信回复: 您已收到 1 条回复标题
python - 给定 python 中的字符串列表
我在 python 中有以下代码: class CreateMap: def changeme(listOne, lisrTwo, listThree, listFour, listfive):
java - 给定 id 的多个实体的高效缓存感知获取
这是在 Hibernate 上运行的 JPA2。我想检索相同实体类型的多个实例，给定它们的 ID。其中许多已经在持久性上下文和/或二级缓存中。我尝试了几种方法，但似乎都有其缺点: 当我使用 ent

首页

博学

6Ren·AI

商城

python - 给定现有分布，我如何使用 X 的标准绘制大小为 N 的样本？