R 历史 : relationship between 'breaks' value and number/size of bins-6ren

R 历史 : relationship between 'breaks' value and number/size of bins

转载作者：行者123 更新时间：2023-12-01 23:37:57

25

4

关于 R/中的 HIST/hist() 函数谁能帮我找到:

一个非常简单的定义来解释“breaks”的指定值与直方图中产生的 bin 数量之间的关系？

例如，我使用 R 工具提供的基本数据集:

data(mtcars)
hist(mtcars$mpg, break=3) --> will draw 3 bins (really??? weird!)
hist(mtcars$mpg, break=4) --> will draw 5 bins 
hist(mtcars$mpg, break=5) --> will draw 5 bins no change, same as breaks=4
hist(mtcars$mpg, break=6) --> will draw 5 bins no change, same as breaks=4
hist(mtcars$mpg, break=7) --> will draw 5 bins no change, same as breaks=4
hist(mtcars$mpg, break=8) --> will draw 5 bins no change, same as breaks=4
hist(mtcars$mpg, break=9) --> will draw 11 bins (why???)

为什么breaks = 4,5,6,7,8 会导致相同数量的bins 而breaks=3 只导致4 个bins，...？

您可以在 ?hist 或以下链接中找到 R 文档:
http://localhost//library/graphics/html/hist.html

并没有真正的帮助，我试图在“breaks=”中指定的值、bin 的大小和 bin 的数量之间建立任何联系，但我找不到一个简单或简单的公式或解释来扣除这种“链接”。

我只是不明白“breaks=3”是什么意思？
它的意思是“3 次休息”还是“每隔 3 个单位休息一次”或完全不同的意思？

我真的很感激任何提示、帮助、任何类型的指针。

谢谢你。

最佳答案

hist 的文档说当您将中断指定为单个数字时(就像您所做的那样)然后

the number is a suggestion only; as the breakpoints will be set to pretty values

如果您点击 pretty 的文档链接它说

The values are chosen so that they are 1, 2 or 5 times a power of 10.

您不能以 1,2、5 或 10 的 4 个均匀间隔的倍数跨越 10 和 35 之间的间隙，因此它选择了 5 个 bin(6 个断点)。如果你真的想要四个均匀间隔的垃圾箱，你可以使用

hist(mtcars$mpg, seq(10,35, length.out=5))

请注意，您需要使用 length.out=5 来获得四个 bin(四个起点加上一个额外的端点)。当然，这并没有给出“漂亮”的值(value)。

如果您不喜欢 x 轴上的刻度不与 bin 对齐(我不喜欢)，您可以在 hist 中去掉轴。并自己添加它们。

H = hist(mtcars$mpg, seq(10,35, length.out=5), axes=FALSE, ylim=c(0,14))
axis(side=1, at=seq(10,35, length.out=5))
axis(side=2, pretty(0:14))

breaks的进一步说明

文档 ?hist在休息时说有 5 种类型的值可以用于休息。您正在使用的是:

a single number giving the number of cells for the histogram

但是如上所述，文档补充说:

the number is a suggestion only; the breakpoints will be set to pretty values.

所以当你给 hist参数 breaks=4 ，它知道你想要 4 个 bin，但它也会坚持使用“漂亮”的边界值，即均匀间隔的 1,2 的倍数，10 的幂的 5 倍。端点上也可能存在限制。

让我们研究一下它对您的 mtcars$mpg 数据的作用。
你可以得到很多关于什么的信息 hist是通过保存返回值来做的。我还将抑制直方图的实际绘制，因为现在我只对值感兴趣。

HV = hist(mtcars$mpg, 4, plot=FALSE)

可以打印出HV，看到信息量很大
关于直方图。我们在这里关心的所有内容都存储在 breaks 中.

HV$breaks
[1] 10 15 20 25 30 35

这给出了箱的 6 个边界值(需要 5 个箱
6 个边界值)。但是我们要了 4 个垃圾箱，而不是 5 个!如果分开
将 10-35 范围划分为四个 bin 即可获得边界
10、16.25、22.5、28.75 和 35。这些不是“漂亮”的边界值。
相反， hist使用 pretty函数来为边界找到更好的值，但这意味着它必须放弃使用 4 个 bin。

对于一系列中断值，我们会得到多少个中断点？
让我们尝试 2 次休息，最多 20 次休息。

sapply(2:20, function(n) 
    length(hist(mtcars$mpg, n, plot=FALSE)$breaks))
 [1]  4  4  6  6  6  6  6 13 13 13 13 13 13 13 13 25 25 25 25

再次注意:4 个断点意味着 3 个 bin。
6 个断点意味着 5 个 bin。只有四种不同
创建的拆分。这些是什么？

unique(lapply(2:20, function(n) hist(mtcars$mpg, n, plot=FALSE)$breaks))
[[1]]
[1] 10 20 30 40
[[2]]
[1] 10 15 20 25 30 35
[[3]]
 [1] 10 12 14 16 18 20 22 24 26 28 30 32 34
[[4]]
 [1] 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

边界变化 10、5 2 或 1 - 漂亮的边界。

如果你想有更多的控制，你需要能够指定
你想要边界的地方。这就是我在上面的例子中所做的。用于指定 breaks 的其他选项之一是:

a vector giving the breakpoints between histogram cells

这是我指定时使用的 seq(10,35, length.out=5) .
但请注意以下值:

seq(10,35, length.out=5)
[1] 10.00 16.25 22.50 28.75 35.00

不漂亮。

所以你可以让它变得简单而漂亮，但没有很好的控制
超过垃圾箱的数量，或者您可以控制数量
以更多的工作和更丑陋的边界为代价的垃圾箱。

关于R 历史 : relationship between 'breaks' value and number/size of bins，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50125752/

25

4

0

文章推荐： command - 代号一 LeftBarCommand 文本大小未更改

文章推荐： r - 按照一定的规则调整向量子集值

文章推荐： azure - 无法调试 Azure Function - Visual Studio 2017

文章推荐： sql - 将表列合并为单个字符串(无 UDF)

javascript - 将 json 编码的字符串转换为 [value, value],[value, value]
我正在尝试使用 flot 绘制 SQL 数据库中的数据图表，这是使用 php 收集的，然后使用 json 编码的。目前看起来像: [{"month":"February","data":482},
php - php数组的结果是[value][value]，我怎样才能得到像[value,value]这样的结果
我有一个来自 php 行的 json 结果，类似于 ["value"]["value"] 我尝试使用内爆函数，但得到的结果是“value”“value” |id_kategori|created_at
javascript - 为什么 select.setAttribute ('value' ,value) 产生与 select.value=value 不同的结果？
脚本 1 将记录 two 但浏览器仍会将 select 元素呈现为 One。该表单还将提交值 one。脚本 2 将记录、呈现和提交两个。我希望它们是同义词并做同样的事情。请解释它们为何不同，以及我
Python如何做列表字典的字典的.values().values()
我的python字典结构是这样的: ips[host][ip] 每行 ips[host][ip] 看起来像这样: [host, ip, network, mask, broadcast, mac, g
c# - 这是什么意思/做什么？ "value < 0 ? -value : value;"
在 C# 中我正在关注的一本书对设置和获取属性提出了这样的建议: double pri_test; public double Test { get { return pri_test; }
c++ - if (mask & VALUE) 还是 if ((mask & VALUE) == VALUE)？
您可能熟悉 enum 位掩码方案，例如: enum Flags { FLAG1 = 0x1, FLAG2 = 0x2, FLAG3 = 0x4, FLAG4 = 0x8
java - (String)value 和 value.toString() ， new Long(value) 和 (Long)value 之间的区别
在一些地方我看到了(String)value。在一些地方value.toString() 这两者有什么区别，在什么情况下我需要使用哪一个。 new Long(value) 和 (Long)value
javascript - 当 "!value ? null : value[0]"不等同于 "value ? value[0] : null"时，Javascript 中是否存在任何时间？
有没有什么时候 var result = !value ? null : value[0]; 不会等同于 var result = value ? value[0] : null; 最佳答案在此处将
javascript - 如何修复 "My first scan value is not same as my second scan value and the value scan in HTML is not same as value scan in notepad?"
我正在使用扫描仪检测设备。目前，我的条形码的值为 2345345 A1。因此，当我扫描到记事本或文本编辑器时，输出将类似于 2345345 A1，这是正确的条形码值。问题是: 当我第一次将条形码扫描
c# - 如何转换 Json key :value into value:value in C#?
我正在读取 C# 中的资源文件并将其转换为 JSON 字符串格式。现在我想将该 JSON 字符串的值转换为键。例子， [ { "key": "CreateAccount", "text":
Python( Pandas ): replace value if previous value is same as next value
我有以下问题: 我有一个数据框，最多可能有 600 万行左右。此数据框中的一列包含某些 ID。 ID NaN NaN D1 D1 D1 NaN D1 D1 NaN NaN NaN NaN D2 NaN
java - (Float value + Integer value + long value) 如何给出意想不到的结果？
import java.util.*; import java.lang.*; class Main { public static void main (String[] args) thr
android - values、values-v11 和 values-v14 文件夹的样式和主题
我目前正在开发我的应用程序，使其设计基于 Holo 主题。在全局范围内我想做的是工作，但我对文件夹 values、values-v11 和 values-v14. 所以我知道: values 的目标是
java ； HttpURL连接；查询项重复为 `paramName=value, value` 。预计为 `paramName=value`
我遇到了一个非常奇怪的问题。我的公司为我们的各种 Assets 使用集中式用户注册网络服务。我们一般通过HttpURLConnection使用请求方法GET向Web服务发送请求，通过qs设置参数。这
mySQL UPDATE value based on SELECT value of value +1 递增列值
查询: UPDATE nominees SET votes = ( SELECT votes FROM nominees WHERE ID =1 ) +1 错误: You can't specify
javascript - mathjs 评估错误 : (intermediate value)(intermediate value)(intermediate value) is not a function
如果我运行一段代码: obj = {}; obj['number'] = 1; obj['expressionS'] = 'Sin(0.5 * c1)'; obj['c
android - 错误 : String types not allowed (at 'fail' with value) @values/values. xml
我正在为我的应用创建一个带有 Twitter 帐户的登录页面。当我构建我的项目时会发生上述错误。 values/strings.xml @dimen/abc_text_size_medium
mysql - View 中的 SUM(table2.value * table2.value) (+ table1.value)
我在搜索引擎中使用以下 View : CREATE VIEW msr_joined_view AS SELECT table1.id AS msr_id, table1.msr_number, tab
xhtml - 验证错误 "Value Error : background-position Too many values or values are not"如何解决？
为什么验证会返回此错误。如何解决？ ul#navigation li#navigation-3 a.current Value Error : background-position Too
Python 数据帧 : find previous row's value before a specific value with same value in other columns
我有一个数据名如下 import pandas as pd d = { 'Name' : ['James', 'John', 'Peter', 'Thomas', 'Jacob', 'Andr

首页

博学

6Ren·AI

商城

R 历史 : relationship between 'breaks' value and number/size of bins