- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我担心将来运行的代码可能会失败。我用 tidyverse
看过这个运行良好但一段时间后返回错误的函数,因为它们已被 Defunct .为了给出一些可重现的例子,试试这段来自 How to make a great R reproducible example 的代码。具有讽刺意味的是,它不再可重现(将 age
和 x
的值与原始帖子进行比较):
set.seed(42) ## for sake of reproducibility
n <- 6
dat <- data.frame(id=1:n,
date=seq.Date(as.Date("2020-12-26"), as.Date("2020-12-31"), "day"),
group=rep(LETTERS[1:2], n/2),
age=sample(18:30, n, replace=TRUE),
type=factor(paste("type", 1:n)),
x=rnorm(n))
dat
id date group age type x
1 1 2020-12-26 A 29 type 1 0.63286260
2 2 2020-12-27 B 30 type 2 0.40426832
3 3 2020-12-28 A 21 type 3 -0.10612452
4 4 2020-12-29 B 28 type 4 1.51152200
5 5 2020-12-30 A 26 type 5 -0.09465904
6 6 2020-12-31 B 24 type 6 2.01842371
问题
是否仅在更新后完全相同的代码返回不同的输出?换句话说:包和 R
本身通常不会自动更新,所以这是否意味着只要我不手动更新任何东西,我就可以“永远”地重新运行一个函数?有没有异常(exception)?
我为什么要问
我使用 bcrypt
为我的公司加密敏感数据包装在 R
.我们需要对数据进行加密并删除原始数据。一旦完成,就没有回头路了,也就是说,我真的必须相信代码。我没有使用包,但 bcrypt
, shiny
和 shinydashboard
.
编辑
我的问题假设代码在同一系统上运行而没有更改全局设置(根据@qdread 的评论进行编辑)并且没有更改 R 版本。
我的详细工作:我处理患者数据。首先,我为每位患者选择一个由字母和数字组成的随机 ID,例如A72CV
对于 Max Cooper 1987-05-03
.在下一步中,我使用 bcrypt
为每位患者创建盐,然后我使用盐创建 ID 的散列/加密版本(盐 + ID = 加密 ID)。因此每个患者都有姓名+生日、随机字母/数字 ID、盐(使用 salt <- bcrypt::gensalt(log_rounds = 12)
生成)和加密 ID(使用 id_encrypted <- bcrypt::hashpw(id, salt = salt)
生成)。我将数据保存在三个单独的文件中:(i) 患者数据,即姓名和出生日期,以及加密的 ID,(ii) ID 和盐,以及 (iii) 带有 ID 和许多感兴趣变量的实际数据库,例如吸烟者/体重,...这种方法在我工作的环境中被一些机构推荐,它被称为假名化(一种可逆加密)。它确保即使存在数据泄漏,识别变量 name + birthday 与所有感兴趣的变量(吸烟者,...)之间也没有明显的联系。我制作了一个 shinyApp,允许我的同事 (1) 提供 ID 并查找姓名 + 生日,(2) 提供姓名 + 生日并查找 ID,以及 (3) 为新患者生成 ID。这一切都有效,因为具有相同 salt 的相同 ID 会产生相同的加密(散列)ID——至少目前是这样。但是,如果将来由于某些原因相同的输入(例如 ID)不会返回相同的输出(例如姓名 + 生日),我就完蛋了。另一方面,如果随机 ID 的生成会随着时间而改变,这不是什么大问题,因为每个 ID 只创建和保存一次,即这个过程不必是可重现的。所描述的加密方法将应用于我所在机构多年收集的一些数据库。如果我们不能重新创建数据,那么一切都会丢失。这就是代码稳定性对我如此重要的原因。我会在同事的 windows 电脑上安装 shinyApp。他们只会点击 run App
里面R
然后执行之前描述的选项之一(1 到 3)。
最佳答案
(部分回答。)
sample
的默认行为在 R-3.6.0 中发生了变化。值得注意的是,在 NEWS-3在 R-3.6.0 下,它在 SIGNIFICANT USER-VISIBLE CHANGES 下声明:
The default method for generating from a discrete uniform distribution (used in
sample()
, for instance) has been changed. This addresses the fact, pointed out by Ottoboni and Stark, that the previous method madesample()
noticeably non-uniform on large populations. See PR#17494 for a discussion. The previous method can be requested usingRNGkind()
orRNGversion()
if necessary for reproduction of old results. Thanks to Duncan Murdoch for contributing the patch and Gabe Becker for further assistance.
我们可以通过更改 sample.kind="Rounding"
重新获得 age
随机值,
RNGkind(sample.kind = "Rounding")
# Warning in RNGkind(sample.kind = "Rounding") :
# non-uniform 'Rounding' sampler used
set.seed(42) ## for sake of reproducibility
n <- 6
dat <- data.frame(id=1:n,
date=seq.Date(as.Date("2020-12-26"), as.Date("2020-12-31"), "day"),
group=rep(LETTERS[1:2], n/2),
age=sample(18:30, n, replace=TRUE),
type=factor(paste("type", 1:n)),
x=rnorm(n))
dat
# id date group age type x
# 1 1 2020-12-26 A 29 type 1 0.63286260
# 2 2 2020-12-27 B 30 type 2 0.40426832
# 3 3 2020-12-28 A 21 type 3 -0.10612452
# 4 4 2020-12-29 B 28 type 4 1.51152200
# 5 5 2020-12-30 A 26 type 5 -0.09465904
# 6 6 2020-12-31 B 24 type 6 2.01842371
至于更改后的 rnorm
输出,在同一链接中指出
Note: The output of
set.seed()
differs between R >3.6.0 and previous versions. Specify which R version you used for the random process, and don't be surprised if you get slightly different results when following old questions. To get the same result in such cases, you can use theRNGversion()
-function before set.seed() (e.g.:RNGversion("3.5.2")
).
不幸的是,我无法重现 x
-column 的链接版本。
生产中如何处理?在单元测试中依赖真正的随机数总是粗略的(出于诸如此类的原因),主要原因有两个:您不能总是假设未播种的随机值会达到您想要的极端情况;正如您在此处看到的那样,种子随机值会受到“错误修复”或 PRNG 过程改进的影响。
关于再现性 : Failing to rerun code over time,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71127911/
“Fail Early”是什么意思,在什么情况下这种方法最有用,你什么时候会避免这种方法? 最佳答案 本质上,快速失败 (又名 尽早失败 )是对您的软件进行编码,使得 当出现问题时,软件会尽快并尽可能
/* * 115200. Connect GPIO 0 of your ESP8266 to VCC and reset the board */ #include #include #inc
安装并注册 gitlab-runner 后,当我运行时 gitlab-runner start我收到此错误消息。这是什么原因? Runtime platform
我一直在尝试Windows Server 2016 TP5上的Windows容器。突然我在运行带有端口映射选项-p 80:80的容器时开始出错 c:\>docker run -it -p 80:80
我一直在关注 Hyperledger Fabric Multi-Org setup 的教程,我能够成功地做到这一点。现在我想根据我想要的组织名称对其进行自定义,并且在尝试连接网络时遇到以下错误。希望有
所以我不知道为什么这个测试失败了。当我运行 repl 中的语句时,一切似乎都正常工作,但 fiveam 测试失败。 以下要点中有一个测试用例:https://gist.github.com/Puerc
我安装了 Android Studio 1.2.1.1、Gradle 版本 2.2.1 和 Android 插件版本 1.2.3。我试图创建一个简单的 hello world 项目,它给了我一个构建失
我正在尝试设置一个简单的 WebTestCase,它使用 Symfony 4(和 "phpunit/phpunit": "^6.5")。但是,测试失败: Failed to start the ses
我已经使用 git clone 在本地克隆了一个包含 Vue 项目的 git 存储库. 然后我跑了npm install安装依赖项并获得 node_modules文件夹。 正在运行 npm run s
我有:http://windows.github.com/ 我当前的项目有大约 20k 个文件,大约 150MB(并且不说它有多慢而且我现在什么也做不了)它甚至不允许我提交!我收到此错误:提交失败:无
我正在使用 RxAndroidBle 库开发一个应用程序,该库大约每 30 秒定期执行 BLE 扫描,每分钟左右执行一些 BLE 操作。几个小时后,通常在 5 到 24 小时之间,扫描停止工作。每次应
每次我尝试使用 Pycharm 推送 GitHub 中的存储库时,它都会失败。 Push failed: fatal: Authentication failed for 'https://githu
此外,管理内置“管理结构”(如标题中的结构)的 Resque 的最佳实践是什么?我应该用 jedis.del(String key) 或类似的东西清除它们吗? 最佳答案 resque:failed 是
想象这样一种场景,我们想要在对“foo”和“bar”的并发请求成功完成后做一些事情,或者如果其中一个或两个失败则报告错误: $.when($.getJSON('foo'), $.getJSON('ba
这就是我所做的: 我使用的是 Windows XP SP3 我已经安装了 Python 2.7.1。 我下载了instantclient-basic-nt-11.2.0.3.0.zip,解压后放入C:
我已经设置了一个 vfsstream block 设备,我正在尝试对其调用 file_get_contents()。然而,对 vfsStreamWrapper::stream_open 的调用失败,因
我正在尝试在我的 React 应用程序中使用文件上传功能,但遇到了问题。当我尝试上传第一张图片时,它工作得很好。文件资源管理器对话框关闭并显示我的图片。用我的文件资源管理器中的另一张图片覆盖图片也可以
目标:将我的本地 mongodb 数据迁移到 mongodb atlas 集群。 尝试: 1.将本地数据导出为json。 2.导入json到集群。 操作系统:Linuxmint 19.1 Cinnam
我一直在从事一个需要在服务器(托管在 GCE 上)和多个客户端之间进行一些网络连接的项目。我创建了一个 Compute Engine 实例来运行 Python 脚本,如以下视频所示:https://w
我正在尝试使用 sqlx crate 和 Postgres 数据库连接到 Rust 中的数据库。 main.rs: use dotenv; use sqlx::Pool; use sqlx::PgPo
我是一名优秀的程序员,十分优秀!