r - 从已知百分位数生成正态分布-6ren

r - 从已知百分位数生成正态分布

转载作者：行者123 更新时间：2023-12-05 06:45:58

24

4

如果我已经知道特定的百分位数，我会尝试了解如何生成正态分布。

一位用户对类似问题 (link here) 给出了非常全面的答案，但是当我尝试使用现有数据对其进行测试时，方差太大了。

我是怎么做到的:

x <- c(5,8,11)
PercRank <- c(2.1, 51.1, 98.8)

例如，PercRank = 2.1 表示 2.1% 的数据的值/分数 <= 5(x 的第一个值)。同样，PercRank = 51.1 表示 51.1% 的数据具有值/分数 <= 8。

我按照这个link中的方法.这是我的代码:

cum.p <- c(2.1, 51.1, 98.8)/100
prob <- c( cum.p[1], diff(cum.p), .01)
x <- c(5,8,11)

freq <- 1000 # final output size that we want

# Extreme values beyond x (to sample)
init <- -(abs(min(x)) + 1) 
fin  <- abs(max(x)) + 1

ival <- c(init, x, fin) # generate the sequence to take pairs from
len <- 100 # sequence of each pair

s <- sapply(2:length(ival), function(i) {
  seq(ival[i-1], ival[i], length.out=len)
})
# sample from s, total of 10000 values with probabilities calculated above
out <- sample(s, freq, prob=rep(prob, each=len), replace = T)

quantile(out, cum.p) 
# 2% 51.1% 98.8% 
# 5     8    11 

c(mean(out), sd(out))
# [1] 7.834401 2.214227

所有这些都来自评论 ( linked )，到目前为止一切顺利。然后我尝试检查生成的正态分布与我的拟合值的配合情况:

data.frame(sort(rnorm(1000, mean=mean(out), sd=sd(out))))
...
# 988                                          13.000904
# 989                                          13.028881
# 990                                          13.076649
...
# 1000                                         14.567080

我很担心，因为第 988 个值(例如，1000 个样本中的 98.8%)是 13.000904，而我为 98.8% 百分位数拟合的值是 11.0。

我多次重新生成分布，方差一直比需要的大。

我被难住了。如果有人能告诉我一种使方差更准确的方法，我将不胜感激。或者，这是不可避免的吗？

(我第一次在这里发帖，如果我违反了规则，我深表歉意 - 如果需要，我可以说得更清楚。)

最佳答案

您为什么不将其视为优化问题？

x <- c(5,8,11)
PercRank <- c(2.1, 51.1, 98.8)

fun <- function(par, pq) {
  sum((log(pq[,1]/100)-pnorm(pq[,2], mean=par[1], sd=par[2], log.p=TRUE))^2)
}

par.estimates <- optim(c(0,1), fn=fun, pq=cbind(PercRank, x))

pnorm(11, par.estimates[[1]][1], par.estimates[[1]][2])
#[1] 0.9816948

结果似乎是合理的，但与 q=11 的预期值存在一些差异。但是，我怀疑这是您的数据的问题(例如，由于四舍五入)，因为以下方法运行良好:

PercRank <- pnorm(x, 8, 2)*100
par.estimates <- optim(c(0,1), fn=fun, pq=cbind(PercRank, x))
par.estimates[[1]]
#[1] 7.999774 1.999953

当然，对于这个特定问题可能有更好的优化器。

关于r - 从已知百分位数生成正态分布，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19996661/

24

4

0

文章推荐： ruby-on-rails-3 - 从类方法 : "undefined method" 调用辅助方法

文章推荐： objective-c - 你如何量化你的 Objective-C 代码质量？

文章推荐： python - 网页抓取谷歌财经

文章推荐： .net - MouseEventArgs.GetPosition 在 WPF 中没有按预期工作

c++ - 转换已定义(已知)内存的邻居内存
将此矩阵视为一个内存。 p00 p01 p02 p03 p04 p05 p06.... p0n
ruby - 如何从特定(已知)模式映射新数组？
一般，您如何确定如何根据已知模式迭代数组？具体，这是我想要迭代的模式，返回一个数组数组:(每个数字都是原始数组的索引值:[0, 1, 2, 3] ) 0 0,1 0,1,2 0,1,2,3 1 1,
c++ - 如何正确转换也是不同数据类型的各种(已知)长度数据包的流？
问题: 我正在编写一个 C++ 程序，我想在其中从 TCP/IP 套接字读取数据流。数据由几个不同长度和数据类型的数据包组成，但是，它们都是以十六进制格式接收的。在此图中可以看到数据包的长度及其数据类
c++ - (已知)VC12 中的编译器错误？
使用 VC12(在 Visual Studio 2013 RTM 中)[1] 编译此程序会导致崩溃(在所有构建配置中)，而实际上它不应该: #include void foo(std::string
snakemake - Snakemake 中不同(已知)的输出数量
我有一个 Snakemake 规则，适用于数据存档并本质上解压其中的数据。文件包含我在规则开始之前知道的不同数量的文件，因此我想利用它并执行类似的操作 rule unpack: input:
ios - 已知 Xcode 错误/陷阱的列表
有这样的 list 吗？我对 iOS 开发比较陌生，我认为研究最知名的编译器错误或陷阱列表会很棒。编辑: 今天我花了太多时间来理解这样的代码发生了什么: 在 *.h @interface I :
javascript - jquery 已知 div 中的最后一个未知元素
如何选择已知 div 中的最后一个子元素，其中该子元素是未知元素。即:元素可以是段落或无序列表。大多数情况下结构是: Text 但在其他情况下，结构将是: Text More Text
python - 已知 x、y 的条形图
我想绘制以下内容: x = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I'] y = [10, 20, 1, 8, 7, 2, 3, 7, 11] 作为条形图
algorithm - 您如何找到最佳的堆栈移动集，以对*已知*列表进行排序？
关于未知列表的排序问题，人们已经知道很多了。但是，在堆栈机器中找到已知列表的最佳排序问题呢？也就是说，假设您有以下堆栈计算机： [4,1,3,2] [] [] 也就是说，有3个堆栈的空间，其中1个堆栈
Python Mechanize 更改未命名的输入值(已知 id)
正如主题中所写，我必须使用 mechanize 更改某些输入字段的值，但我没有它的名称只有 id:/让我们坚持这一点。表单是这样的:
programming-languages - 已知 "Z notation"应用程序？
我只是回想起我的大学类(class)，想知道这里是否有人在专业环境中使用过“Z 符号”。老实说，这是我一生中参加过的最无聊的类(class)。也许是因为老师，但当时我们真的都认为这是浪费时间。我可能错
c++ - Windows 主页 - SHGet(已知)文件夹路径
我正在尝试编写一个函数来获取 Windows 等效的 HOME。我的 C 技能生疏了，所以请不要介意我的示例代码无法编译。我试图在 Windows Vista 和更新版本上使用 SHGetKnownF
python - 求解矩阵方程 AB = BC，已知 A 和 C
我想找到一个正整数矩阵B，使得AB = BC，其中A和C是具有共同特征值的正整数矩阵。对于这种情况，存在解，但不唯一；我只需要一种解决方案。有人知道 python 或 matlab 中可以执行此操作
security - 如果 y 已知，hash(x+y) 有多强？
如果您有两个二进制 blob，x 和 y。然后将它们散列在一起，假设使用 SHA-512。入侵者知道 y，这会使反转哈希变得容易多少？是否有关于 y 有多大并且可以与 x 比较才成为问题的指南？这有
javascript - 如何在 Angular 中进行实际的 Stripe 收费(stripeToken 已知)？
我正在使用Angular-Stripe-Checkout library创建像这样的 stripeToken example 。一些亮点如下所示。与许多 Angular-stripe 库和示例一样，
c - RSA 算法 - 已知 n 如何获得 p & q
我有一个带有 (e,n) 加密数据的公钥，必须通过 RSA 获取纯文本，并且所有这些都在 C 中! 首先我想知道如何找出我的 p 和 q 是什么？我知道它们必须是质数和 p<>q! 最佳答案首先，因
SQL 查询计数所有(未知，已知)，未知，已知客户，通过电话 Mac 地址唯一标识
表1(客户表) Id, CustomerId, IsKnownCustomer,phonemacaddress 1, 空 0 00:9a:34:cf:a4 2, 004024 1 00:6f:64:c
c++ - 找到第 n 个加泰罗尼亚数 mod m 的最快(已知)算法是什么？
问题是找到第 n-th Catalan 数 mod m，其中 m 是 NOT prime , m = (10^14 + 7)。以下是我尝试过的方法列表:(max N = 10,000) 查表的动态编程
android - 如果使用 phonegap 和 HTML5 已知 SSID，如何连接到 wifi 网络？
每当我打开我的应用程序时，我都想将我的应用程序连接到一个已知的 wifi 网络/ssid。即使手机当前通过 3G 或任何其他 wifi 网络连接。仅使用 phonegap/html5 是否可行？最
php - Laravel 5.1 Session 和 Socket.IO + Redis - 向登录(已知)用户和用户组发送通知
我正在做一个项目，我想为特定的用户组(具有管理员角色)实现实时通知，经过一些研究，我明白我需要 session 才能知道哪些用户已登录(默认情况下他们是匿名的)。另外，我只需要向特定用户发送通知。

首页

博学

6Ren·AI

商城

r - 从已知百分位数生成正态分布