r - 根据多个向量的多个条件创建数值样本-6ren

r - 根据多个向量的多个条件创建数值样本

转载作者：行者123 更新时间：2023-12-03 23:49:10

25

4

给定以下数据框:

df <- tibble::tribble(
  ~pass_id, ~km_ini, ~km_fin,
        1L,    0.89,    2.39,
        2L,    1.53,    3.03,
        3L,    21.9,    23.4,
        4L,    23.4,    24.9,
        5L,      24,    25.5,
        6L,    25.9,    27.4,
        7L,    36.7,    38.2,
        8L,    41.4,    42.9,
        9L,    42.1,    43.6,
       10L,    45.5,      47
  )

创建于 2020-02-17 由 reprex package (v0.3.0)

我需要与 匹配的任意 50 个数字的样本全部 以下标准适用于 所有行 的 df :

>= .750

<= 99.450

< km_ini - .750

> km_fin + .750

我的最佳射门与我的期望相去甚远。首先我做了一个 runif ，然后我 enframe d它，并试图 filter ，但我只是让它在前两个条件下工作。无论如何，我不一定需要将结果作为数据框，它可能是一个数字向量。

library(tidyverse, verbose = F)

set.seed(42)
sort(runif(100000, 0, 99.450)) %>% 
  enframe(., "ID", "km") %>% 
  filter(km >= .750 & km <= 99.450 - .750)
#> # A tibble: 98,467 x 2
#>       ID    km
#>    <int> <dbl>
#>  1   763 0.750
#>  2   764 0.751
#>  3   765 0.751
#>  4   766 0.753
#>  5   767 0.753
#>  6   768 0.754
#>  7   769 0.754
#>  8   770 0.755
#>  9   771 0.755
#> 10   772 0.757
#> # … with 98,457 more rows

编辑:试图直观地显示问题

最终结果需要是评估整个数据集的数值向量(或 df)，而不仅仅是分别评估每一行。作为前两行的示例，请参见以下表示:

所以，请看:

黑线表示我的数据不能小于 0.750。

蓝线表示由于第 1 行的 km_ini 和 km_fin(箭头)的覆盖区域以及考虑 + 或 - .750(箭头和点之间)区域的另一个附录而无法记录的位置。

红线表示由于第 2 行的 km_ini 和 km_fin(箭头)的覆盖区域以及考虑 + 或 - .750(箭头和点之间)区域的另一个附录，我无法记录的地方。

这样一来，前 4000 米内的随机数据集只能包含 3030 + .750 的数字。

那么，问题是尝试以编程方式执行此操作，以便评估数据帧的所有行并且生成的数字不在提到的所有条件内。

最佳答案

我觉得我懂了。您想在由距离分隔的间隙中采样，复杂的因素是您无法在 750m 的标记距离的任一侧采样。

我认为对问题有更清晰的视觉理解很有用。在这个图中，x 轴代表距离(y 轴只是一个“虚拟”轴，因为我们只对 x 轴感兴趣)。黑条是我们无法采样的“禁区”。在我们不想采样的禁区两侧还有 750m 区域，这里用红色表示:

所以本质上，我们想要一个来自该图中 x 轴的非阴影区域的统一样本。

我的解决方案是首先合并重叠的段，然后创建一个根据每个间隙的大小加权的样本空间，并从该空间中取 50 个统一样本。

在这里，我已经概括为允许任意限制和样本大小。

sample_space <- function(km_ini, km_fin, km_max = 99.45, buffer = 0.75, n = 50)
{
  # Find and merge overlaps
  i <- 1
  km_ini <- km_ini - buffer
  km_fin <- km_fin + buffer
  while(i <= length(km_ini))
  {
    overlaps <- which(km_ini < km_fin[i] & km_fin > km_ini[i])
    if(length(overlaps) < 2) {i <- i + 1; next;}
    km_ini <- c(km_ini, min(km_ini[overlaps]))
    km_fin <- c(km_fin, max(km_fin[overlaps]))
    km_ini <- km_ini[-overlaps]
    km_fin <- km_fin[-overlaps]
    i <- 1
  }

  # Create a matrix of appropriate gaps
  gaps <- cbind(sort(km_fin), c(sort(km_ini)[-1], km_max))

  print(gaps)
  # Create a weighted sample space
  splits <- c(0, cumsum(apply(gaps, 1, diff)))

  # Take a sample within that space
  runifs <- runif(n, 0, max(splits))

  # Add the appropriate starting value back on
  index <- as.numeric(cut(runifs, splits))
  runifs - splits[index] + gaps[index, 1]
}

所以现在我们可以做

sample_space(df$km_ini, df$km_fin)
#>  [1] 93.107858 92.216660 83.597703 86.341198 72.258245 86.591883 18.572744
#>  [8] 16.641163 73.344658 73.075426 78.230074 97.745802 52.654342 52.298444
#> [15] 70.029034 67.430346 95.328900 62.250864 79.144025 86.344868  7.063474
#> [22] 58.797335 79.304272 54.731057 32.137068 84.837576 94.226992 50.808135
#> [29] 65.987277 76.666933 29.225744 33.309866 13.013735  6.925277 65.207383
#> [36] 91.591293 61.614993 18.646062 97.550237 48.478875 12.860920 20.263471
#> [43] 34.980616 50.583291 15.813562 96.104448 91.310377 53.063613 17.376281
#> [50] 72.511153

为了表明这符合我们的要求，让我们在禁区图上绘制样本:

set.seed(69)
sample_df <- data.frame(x = sample_space(df$km_ini, df$km_fin),
                      y = runif(50, 0.45, 0.55))

ggplot(df) + 
  geom_rect(aes(xmin = km_ini - 0.75, xmax = km_fin + 0.75, ymin = 0, ymax = 1), 
            alpha = 0.5, fill = "red") +
  geom_rect(aes(xmin = km_ini, xmax = km_fin, ymin = 0, ymax = 1), fill = "black") +
  geom_rect(aes(xmin = 0, xmax = 0.75, ymin = 0, ymax = 1), alpha = 0.5) +
  geom_rect(aes(xmin = 99.45, xmax = 100, ymin = 0, ymax = 1), alpha = 0.5) +
  labs(x = "distance", y = "dummy") +
  geom_point(data = sample_df, aes(x = x, y = y), col = "blue")

创建于 2020-03-01 由 reprex package (v0.3.0)

关于r - 根据多个向量的多个条件创建数值样本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60267678/

25

4

0

文章推荐： haskell - 惰性状态转换器在 2D 递归中急切地消耗惰性列表

文章推荐： google-cloud-platform - Google Cloud Run/挂载 Google Storage Bucket

文章推荐： google-bigquery - 如何在 BigQuery 中将数值转换为货币？

javascript - 字母正则表达式 + 数值
我正在开发一个 Java 脚本，为此我需要正则表达式来检查文本框中输入的文本是否应该是字母和数值的组合。我尝试了 Java 脚本的 NaN 函数，但字符串的最小长度和最大长度应为 4，并以字母作为第
algorithm - (数值)计算两个长方体的相交体积
我给出了两个长方体，其中只有一个轴对齐(另外两个不需要对齐)和顶点坐标(在全局坐标系中)，我知道它们相交。我正在寻找一种可以计算路口体积的算法。为了检查交点，我使用了分离轴定理。最佳答案可以通过
MySQL json_search 数值
我有一个类似这样的对象的 json 列表 [{ "something": "bla", "id": 2 }, { "something": "yes", "id": 1
vba - 字典不显示特定键(数值)的项目
这是一篇很长的文章，但请留在我身边... 我有一个字典，它将“PO”保存为Key，将“SO”保存为项目(在某些情况下，某个“PO”可能有多个“SO”) . 工作表中的我的 Excel 数据，字典在其中
elasticsearch - 术语包括 Elasticsearch 数值
我的问题是是否有办法使用 terms include在 numeric field在 elasticsearch aggregation . 我在 Elasticsearch 中对多个字段使用通用查询
json - 编码不带引号的 json 数值
我有一个 perl 代码片段 use JSON::XS; $a = {"john" => "123", "mary" => "456"}; print encode_json($a),"\n"; 输出
python - python的不等式/数值+条件语句？
我想对 python 进行一个条件测试，以检查给定输入数字的值是否等于或小于 9，并且大于或等于 0。 number =input( "Please enter a number! :" ) Plea
javascript - 获取对象中的 "next"数值
我有一个这样的对象: var rock = { 5: 0.5, 0: 0.8, 10: 0.3, 2: 1.0, } 我有一个像 4.3 这样的数字，我需要前后数字的索引和值。在这个例子中我会
iOS - 字符串中各个字符的 Unicode 数值
对于 iOS 中的 Objective-C: 如果我有一个字符串，如何读取单个字符的 unicode 数值？例如，如果我的字符串是:“Δ”，unicode 字符是 U+0394，那么我如何读取该字符
java - 数值 Java 库
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
javascript - 检查数组是否包含(仅)数值
我有这样的数组 var arrayVal_Int = ["21", "53", "92", "79"]; var arrayVal_Alpha = ["John", "Christine", "L
php - 递增 alpha 数值
就像标题暗示我需要做这样的事情...... $i++;//we all know this. $value = 'a'; increment($value);// i need this functi
python - 生成具有给定(数值)分布的随机数
我有一个文件，其中包含一些不同值的概率，例如: 1 0.1 2 0.05 3 0.05 4 0.2 5 0.4 6 0.2 我想使用此分布生成随机数。是否存在处理此问题的现有模块？自己编写代码相当简单
c++ - Rcpp 数值 vector 输出只返回一个值
因此，我在从使用 RCPP 创建的函数返回值时遇到了一些问题。它只返回 NumericVector 的第一个值。问题是当我在自身内部调用函数并将 NumericVector 传递回 out 变量时。任
c++ - 数值 vector 运算符重载+右值引用参数
我有下面的数字 vector 模板类(用于数值计算的 vector )。我正在尝试使编写 D=A+B+C 成为可能，其中所有变量都是 Vector 对象。 A、B 和 C 不应修改。我的想法是使用 V
mysql常用函数实例总结【聚集函数、字符串、数值、时间日期处理等】
本文实例讲述了mysql常用函数。分享给大家供大家参考，具体如下：本文内容： mysql函数的介绍聚集函数 avg count max
python - 如何从 Object dtype 中提取特定的单词/数值？
我正在尝试使用 python(无关)为我的公司自动化一些事情，这就是我的问题。首先，我正在从邮箱中的特定文件夹创建数据框。(到这里没问题)” RangeIndex: 36 entries, 0 to
javascript - Angular ng-if 数值 bool 值
我在让 Angular ng-if 工作时遇到了一些麻烦。我希望我的 DOM 元素之一在 $scope.week = 1 时消失。在我的 Controller 中我设置了 $scope.week =
Solr 数值 Trie 与传统 trie(前缀树)
我正在阅读 Ingersoll、Morton 和 Farris 撰写的 Taming Text，但我不明白 solr 的数字 trie 实现如何帮助搜索文本？我对 solr.TrieField fie
javascript - 在 PHP 计算中使用 JavaScript 数值
这个问题已经有答案了: What is the difference between client-side and server-side programming? (3 个回答) 已关闭 9 年前

首页

博学

6Ren·AI

商城

r - 根据多个向量的多个条件创建数值样本