r - 用适当的精度数字校正R中的“摘要”-6ren

r - 用适当的精度数字校正R中的“摘要”

转载作者：bug小助手更新时间：2023-10-28 10:46:07

29

4

关于简单的看似无辜的函数的简单问题：summary。
直到我看到min和max的结果超出了我的数据范围，我才意识到summary有一个指定输出结果精度的参数。我的问题是如何以一种干净、普遍的方式来解决这个问题。
以下是问题的一个例子：

set.seed(0)
vals    <- 1 + 10 * 1:50000
df      <- cbind(rnorm(10000),sample(vals, 10000), runif(10000))

应用 digits和 summary，我们得到以下输出-注意范围值与最小值和最大值之间的差异：

    > apply(df, 2, summary)

                [,1]   [,2]      [,3]
    Min.    -3.703000     11 6.791e-05
    1st Qu. -0.668500 122800 2.498e-01
    Median   0.009778 248000 5.014e-01
    Mean     0.010450 248800 5.001e-01
    3rd Qu.  0.688800 374000 7.502e-01
    Max.     3.568000 499900 9.999e-01

    >     apply(df, 2, range)
            [,1]   [,2]         [,3]
    [1,] -3.703236     11 6.790622e-05
    [2,]  3.568101 499931 9.998686e-01

在 range中看到错误的范围有点令人不安，所以我查看了 summary选项，但这只是格式化输出的标准符号。另外请注意：除Min以外的每一个分位数都显示了数据集中不存在的值（这就是为什么我在 digits的定义中放置了一个 1 +），在大多数标准分位数计算中也看不到这些分位数，甚至考虑到中点选择的差异。（当我在原始数据中看到这一点时，我想知道我是如何从所有东西中损失了1的值！）
可解释的计算行为（即格式和精度）和统计激励的期望（例如，被识别为分位数的值实际上在数据集的范围内）之间存在差异。因为我们不能改变期望，所以我们需要改变代码的行为，或者至少改进它。
问题：是否有更合适的方法来设置输出以确保范围，而不是将其设置为大值，例如 vals？16是最合适的普遍违约吗？使用16位似乎是双浮点数精度的最佳保证，尽管看起来输出实际上不会有16位（输出似乎仍然被截断为8或9位）。
更新1：正如@briandiggs所指出的，通过链接，行为被记录下来，但出乎意料。为了澄清我的问题，相对于Brian提供的链接上的答案（Brian自己提供的答案除外）：这并不是行为没有文档记录，但是将其表示为最小值和最大值（不是最小值和最大值）是完全错误的。一个文档化的函数在其默认设置需要与非默认设置一起使用（或不应使用）。（也许有人会争论“最小值”和“最大值”是否应该重命名为“近似最小值”和“近似最大值”，但我们不去那里。）
更新2：正如@dwin所指出的， digits = 16将其作为默认值。我以前说违约率是3是错误的。有趣的是，这意味着有两种方法可以设置输出的行为。如果我们同时使用这两种方法，行为就会变得奇怪：

> options(digits = 20)
> apply(df, 2, summary, digits = 10)

                             [,1]                  [,2]                      [,3]
Min.    -3.7032358429999998605808     11.00000000000000 6.7906221370000004927e-05
1st Qu. -0.6684710537000000396546 122798.50000000000000 2.4977348059999998631e-01
Median   0.0097783099960000001427 247971.00000000000000 5.0137970539999998643e-01
Mean     0.0104475229200000005458 248776.38699999998789 5.0011818200000002221e-01
3rd Qu.  0.6887842181000000119084 374031.00000000000000 7.5024240300000000214e-01
Max.     3.5681007909999999938577 499931.00000000000000 9.9986864070000003313e-01

注意，现在它有20位数的输出，即使传递的参数指定了10位数的精度。如果我们将数字的全局选项设置为一些“正常”值（如16），那么如果我们为 summary()提供一个参数10，那么最终还是会出现问题。
我相信文档是不完整的，BrianDiggs在R-Help链接中的深思熟虑的回答中指出了与此相关的其他问题。
尽管有了这些皱纹，这个问题仍然悬而未决，但也许无法回答。我怀疑最好的结果就是保持全局数字选项不变（尽管我对上述行为的影响有点不安），而是将值16传递给 max(3, getOption("digits") - 3)。在指定输出精度的地方并不是很明显，但是这4个值的交互作用-全局选项（和全局选项-3）、传递值和在 summary中硬编码的值12看起来像是一个黑客（宽恕我的灵魂吧）。
更新3：我接受了德温的回答——这让我了解了这种香肠是如何制作的。看到正在发生的事情，我认为没有一种方法可以做到我所要求的，而不需要重写 summary。

最佳答案

summary.data.frame的默认值不是数字=3，而是：

   ... max(3, getOption("digits") - 3)  # set in the argument list
getOption("digits")    # the default setting
[1] 7
options(digits=10)
> summary(df)
       V1                    V2                 V3              
 Min.   :-3.70323584   Min.   :    11.0   Min.   :6.790622e-05  
 1st Qu.:-0.66847105   1st Qu.:122798.5   1st Qu.:2.497735e-01  
 Median : 0.00977831   Median :247971.0   Median :5.013797e-01  
 Mean   : 0.01044752   Mean   :248776.4   Mean   :5.001182e-01  
 3rd Qu.: 0.68878422   3rd Qu.:374031.0   3rd Qu.:7.502424e-01  
 Max.   : 3.56810079   Max.   :499931.0   Max.   :9.998686e-01

关于r - 用适当的精度数字校正R中的“摘要”，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7840073/

29

4

0

文章推荐： python - 在其一侧打印二叉树

文章推荐： python - 将文本列表格式化为列

文章推荐： linux - 如何在 unix/linux 中显示 'ls -l' 命令的列标题？

django - 摘要、基本和承载身份验证
我最近发布了一个 problem我正在进行身份验证，但没有收到任何回复，所以我想到了另一种方式来提问而不是多余的。我在应用程序中看到的内容 documentation是传递访问 token 以进行身
r - 获取因子频率的直方图(摘要)
我有一个具有许多不同值的因素。如果执行 summary(factor)输出是不同值及其频率的列表。像这样: A B C D 3 3 1 5 我想制作频率值的直方图，即 X 轴包含发生的不同频率，Y 轴
新专栏中的 MySQL 摘要
我有 2 个表，其中包含一组数据，如下所示，我想获得 RESULT 中的结果，该结果将在字段 balance 中进行计算: 我被困在余额字段中，如何让余额运行？ tblIn in_date |
c# - 带有模糊引用的文档方法-摘要
我有一个大量重载的方法 MethodA，它由我的 MethodB 文档中的摘要标记引用: /// A link to void MethodB { ... } 注释不应仅依赖于 MethodA 的特
javascript - 禁用详细信息/摘要
当我将新的 details 标签与 summary 结合使用时，我想禁用生成的输入。我以为可以解决这个问题，但遗憾的是它不起作用。如何禁用细节元素？最佳答案一个非常简单的方法是只使用 CSS
c# - 如何创建///摘要
如何在 Visual Studio 中生成此类摘要？ /// /// Returns a number /// /// /// 最佳答案在你的方法、属性等之前输入///，VS会自动生成注释
r - 用适当的精度数字校正R中的“摘要”
关于简单的看似无辜的函数的简单问题：summary。直到我看到min和max的结果超出了我的数据范围，我才意识到summary有一个指定输出结果精度的参数。我的问题是如何以一种干净、普遍的方式来解决
r - 根据跨越另一个(摘要)数据框中的多列的键对数据框进行子集化
我有一个数据框 a，其中包含 4 个标识列:A、B、C、D。使用 ddply() 创建的第二个数据框 b 包含每组的不同 D 的所有值的摘要>A、B、C。第三个数据框 c 包含 b 的子集，其中包含
javascript - Javascript 摘要/文档的新行
这个问题在这里已经有了答案: jsdoc: multiline description @property (4 个回答) 4年前关闭。我正在为我的 javascript 项目使用 Visual S
r - 将列添加到 R 摘要
我有一个向量的 R 摘要: summary(vector) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 1.000 2.000 6
r - 作为另一个函数(摘要)的新数据框列对我不起作用
我想创建一个新的计算列(另一列文本的摘要)。为了让您重现，我创建了一个 df 作为可重现的示例: df head(df,3) name 1 ZKBOZVFKNJBRSDW
sha1 - 如何在对象树上创建 SHA1 摘要？
假设我有一棵对象树，其中每个对象都有一个字符串表示。我想在整棵树上创建一个 SHA1 摘要。最简单的方法是递归遍历树的每个节点。对于每个节点，我将连接(作为简单字符串)所有子节点的 SHA1 摘要，
xaml - MVVM - 摘要/详细信息
因此，我试图围绕 MVVM 进行思考，但我发现我的问题多于答案。当涉及到下一步时，这些教程对我来说还远远不够...... 基本上我想要一个项目列表，然后是一种获取每个项目详细信息的方法。下面是我在网
r - 作为数据框的 Princomp 摘要
我希望将 princomp PCA(必须是 princomp)的摘要作为数据框，以便我可以使用 kable 格式化表格以生成报告。这是我尝试使用的代码，从中应该清楚我想要做什么； kable( as
javascript - AngularJS 摘要 postDigestQueue
我们的一页很重。为了减少我们的观察者数量并加速 Angular 摘要周期，我们大量使用了 On-Time-Binding 语法 :: .我们也在使用angular-bind-notifier以避免对我
java - 仅打印 Javadoc 摘要
我正在与我受雇的公司合作，试图为我们的内部库创建更好的文档。我们希望最终检查每个类并更新我们的命名方案(过去有很多草率的代码)。我想要的是能够打印出 javadoc 的摘要。它需要排除页面底部的完整解
r - 如何在单个命令中组合两个不同的 dplyr 摘要
我正在尝试创建一个分组摘要，报告每个组中的记录数，然后还显示一系列变量的均值。我只能弄清楚如何将其作为两个单独的摘要进行处理，然后再将它们合并在一起。这工作正常，但我想知道是否有更优雅的方法来做到这
r - 摘要 {Hmisc} 丢弃类别？
我正在尝试从 this file 中获取带有百分比的交叉表使用 Hmisc .但为什么是summary()从变量 OCCUPATION 中删除类别(“OTHERS”)？ library(Hmisc)
machine-learning - 基于概念的文本摘要(摘要)
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
android - PreferenceActivity 中的自定义标题栏(摘要)
如标题所示，我想为 PreferenceAcitvity 创建自定义标题栏。我需要在标题下方添加摘要。目前它只会显示一个标题，但我需要一个副标题，就像任何 Preference 都可以有一个摘要。我

首页

博学

6Ren·AI

商城

r - 用适当的精度数字校正R中的“摘要”