r - 如何解决 R 中生存函数 95% 置信区间的差异-6ren

r - 如何解决 R 中生存函数 95% 置信区间的差异

转载作者：行者123 更新时间：2023-12-02 20:54:16

25

4

我正在编写一些函数来从生存分析结果中提取信息，但我在提取 95% 置信区间指定的下限和上限生存时间与从包本身作为摘要报告。

我正在 R (v 3.1.2) 中使用 survival 包 (v 2.37-7)。

所以我的问题是，有时我提取的中位生存时间 95% CI 的下限和/或上限与我仅评估 survfit 结果时返回的内容不匹配。当我检查数据时，我相信 survfit 的结果是错误的，它似乎返回边界+1 值(有时再次)。以下是一些说明问题的数据。

# Fit my data stratified by gender of subject
survFit30Sex <- survfit(Surv(thirtyDaySuicides$daysFromInvestigation) ~ thirtyDaySuicides$Sex)

# Display median survival and confidence interval
survFit30Sex


Call: survfit(formula = Surv(thirtyDaySuicides$daysFromInvestigation) ~ 
thirtyDaySuicides$Sex)

                    records n.max n.start events median 0.95LCL 0.95UCL
thirtyDaySuicides$Sex=1      35    35      35     35     15       9      20
thirtyDaySuicides$Sex=2      93    93      93     93      9       6      13

survfit 将 Sex = 1 的下限和上限分别确定为 9 天和 20 天，但当我检查数据时，似乎上限应该是19，而不是 20

这是实际数据；我只是显示 Sex=1，因为这就是差异所在，我还删除了关键区域之前和之后的值，以使数据更易于阅读

Call: survfit(formula = Surv(thirtyDaySuicides$daysFromInvestigation) ~ 
    thirtyDaySuicides$Sex)

summary( thirtyDaySuicides$Sex=1 )
     time n.risk n.event survival std.err lower 95% CI upper 95% CI
    9     24       2   0.6286  0.0817      0.48725        0.811
   10     22       1   0.6000  0.0828      0.45780        0.786
   11     21       1   0.5714  0.0836      0.42890        0.761
   13     20       1   0.5429  0.0842      0.40055        0.736
   14     19       1   0.5143  0.0845      0.37272        0.710
   15     18       1   0.4857  0.0845      0.34541        0.683
   16     17       1   0.4571  0.0842      0.31861        0.656
   17     16       3   0.3714  0.0817      0.24138        0.572
   19     13       1   0.3429  0.0802      0.21673        0.542
   20     12       2   0.2857  0.0764      0.16921        0.482
   21     10       2   0.2286  0.0710      0.12437        0.420
   22      8       1   0.2000  0.0676      0.10310        0.388

据我了解，中位生存时间的较低 95% CI 为 0.34541。向下搜索生存列，直到在与生存时间 19 (生存 = 0.3429) 关联的行中找到 < 0.34541 的值。这不是上限吗？为什么 survfit 返回的生存时间上限为 20？我已经自动化了这个算法，大多数时候我匹配 survfit 的输出，但并非总是如此。

这让我认为要么是 survival 包中存在一些奇怪的错误(我对此表示怀疑)，要么是我错误地找到了边界(很可能)。

--------- 更新

不幸的是，我不知道如何将数据文件链接到我的问题，但数据很短，所以我可以将其放在这里。请注意，为了简化，我消除了按性别的分层，因此这只是女性的数据，这就是我得到差异的地方。

我发现我的处理方法不正确，也许 95% CI 是根据标准误差计算的，而不是按照我的想法查找。但即使有这个想法，我也遇到了类似的问题。更普遍的问题是，如何从 survfit 对象中提取第 X 个百分位数的生存时间及其相应的 95% CI(以时间为单位)？

这里是通过 dput 的生存输入数据，然后是下面的非结构化副本。

structure(list(daysFromInvestigation = c(27L, 27L, 10L, 20L, 
15L, 21L, 27L, 1L, 9L, 22L, 29L, 14L, 4L, 19L, 7L, 3L, 2L, 7L, 
21L, 4L, 17L, 20L, 16L, 2L, 9L, 7L, 17L, 2L, 17L, 26L, 25L, 11L, 
3L, 13L, 27L), censored = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 
1, 1, 1)), class = "data.frame", row.names = c(NA, -35L), .Names = c("daysFromInvestigation", 
"censored"))

       daysFromInvestigation censored
1                     27        1
2                     27        1
3                     10        1
4                     20        1
5                     15        1
6                     21        1
7                     27        1
8                      1        1
9                      9        1
10                    22        1
11                    29        1
12                    14        1
13                     4        1
14                    19        1
15                     7        1
16                     3        1
17                     2        1
18                     7        1
19                    21        1
20                     4        1
21                    17        1
22                    20        1
23                    16        1
24                     2        1
25                     9        1
26                     7        1
27                    17        1
28                     2        1
29                    17        1
30                    26        1
31                    25        1
32                    11        1
33                     3        1
34                    13        1
35                    27        1

最佳答案

我对自己的问题有一个答案，即使不是最佳答案，至少也是一个很好的近似答案。

我遇到的主要问题是未能使用加权平均值。在我的问题中，我对中位生存时间感兴趣，因此生存 = 0.5。但我的数据并未在精确的中位时间产生事件，因此我的生存概率为 14 天 = 0.5143，15 天 = 0.4857，其加权平均值四舍五入为 15 天。

第二个问题是误解如何使用置信区间。为了匹配生存包报告的内容，为了找到中位生存区间的下界，我们搜索下界向量以找到第一个小于中位值的值，然后计算该值的加权平均时间低于中位数且略高于中位数。同样，对于上限，搜索上限向量以找到目标区间，然后计算加权平均值。对于我的示例，中位生存期的上限发生在 19 天到 20 天之间。加权平均四舍五入为 20 天。

我还没有深入追踪生存代码来确认这是如何正确完成的，但就我而言，我有大约 50 种特定的生存适合组合，着眼于不同的时间段和不同的主持人，我正在匹配生存包提供的中值输出为 100%。

我希望任何遇到同样问题的人都能从这个总结中得到帮助，如果有人想帮助纠正/完善我的理解，我们非常欢迎。

关于r - 如何解决 R 中生存函数 95% 置信区间的差异，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26714389/

25

4

0

文章推荐： android - Firebase 中的 Facebook 身份验证不起作用

文章推荐： intellij-idea - AEM+Filevault+Intellij 集成

文章推荐： unity-game-engine - 如何使网格物体在游戏对象上居中？

Python matplotlib 区间
我在 Python 中使用 matplotlib，并制作了一个带条形的直方图。现在，当直方图出现时，仅 5 的倍数出现在 x 轴上，1000 的倍数出现在 y 轴上。对于 y 轴，这完全没有问题，但对
JavaScript - jQuery 区间
我正在使用 JavaScript 和 jQuery。我有以下脚本每 30 秒提醒一次 hi。 $(document).ready( function() { alert("hi"); setI
math - 一个好的不确定性(区间)算术库？
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
swift - 如何在swift中获得固定长度和范围的 float 区间？
在 Numpy(python 包)中，可以使用语法 numpy.linspace(minValue, MaxValue, numberOfSamples) 构造 float 的离散区间。 . 我看到
c++ - 区间 C++ 中的数字
所以我想在 -3 到 3 的区间内制作一些数字，以便在下面绘制这些函数，所以我想要尽可能多的数字。我这样做: double k[601]; double y[601]; for (int i = 0
sql - 将列插入 postgres 区间
我有一个 Postgresql 表，用于存储有关计划进程的信息，包括上次执行进程的时间。不同的进程对其运行频率有不同的要求。我列出了需要重新运行的进程列表: SELECT * FROM proces
java - JDBI 区间 postgresql
如何正确使用此类带日期间隔的查询 @SqlUpdate("delete fromlogin where created < now() - ':days days' :: interval") v
algorithm - 区间(图论)算法讲解
我正在尝试计算图中的间隔，我在维基百科上找到了算法的数学描述: http://en.wikipedia.org/wiki/Interval_(graph_theory) H = { n0 }
c++ - 如何将货币值四舍五入到最接近的 $5.00 区间？
我有一个基于 Informix-SQL 的 Pawnshop 应用程序，该应用程序根据黄金的重量和纯度计算应向客户贷出多少钱。当铺的最低贷款额为 5.00 美元。当铺员工通常会借出以 5 或 0 结尾
postgresql - 基于 NHibernate 公式的属性 + PostgreSQL 区间
我将 NHibernate 与代码映射一起使用，并且我有一个由此公式创建的属性。 Property(x => x.IsInOverdue, mapper => mapper .Fo
python - 使用频率、区间、CDF、Python 的卡方检验
我正在尝试从头开始为 Beta 分布编写卡方拟合优度检验，而不使用任何外部函数。下面的代码报告“1”适合，即使来自 scipy.stats 的 kstest 返回零。数据是正常分布的，所以我的函数也应
c# - 内置 .Net 算法将值四舍五入到最接近的 10 区间
如何在 C# 中将任何值四舍五入到 10 区间？例如，如果我有 11，我希望它返回 10，如果我有 136，那么我希望它返回 140。我可以很容易地用手做 return ((int)(number
postgresql - 如何在 Go 中表示 PostgreSQL 区间
如何在 Go 中表示 PostgreSQL 区间？我的结构看起来像这样: type Product struct { Id int Name
Swift 3 通用类型函数将数值限制在 0 和 1 区间
我想编写一个函数，将数值限制在封闭的 0,1 区间内: func clamp01(_ value:T) -> T { return value 1 ? 1 : value } 在 Swift 3
postgresql - Postgres 不在区间查询中使用部分时间戳索引(例如，now() - 区间 '7 days')
我有一个简单的表格，用于存储来自在线仪表的降水读数。这是表定义: CREATE TABLE public.precip ( gauge_id smallint,
python-2.7 - 为什么链式(区间)比较不能在 numpy 数组上工作？
a = y def __gt__(self, y): return not self.x > y def __eq__(self, y): return
python - 查找 pandas 系列中至少 N 个样本的 bool 区间
我正在处理 pandas 数据框 D=pd.DataFrame(data=[1.0,2.0,2.0,2.0,5.0,3.0,2.0,2.0,5.0,5.0,8.0,1.0]) 我识别低于特定阈值的值
c++ - 给定一个整数N> 0，区间[0，2 ^ N)中有多少个整数恰好有N-1个设置位？编写返回正确答案的简短函数
我编写了一些C++代码来解决此问题: #include #include using namespace std; unsigned int countSetBits(unsigned int n
python - Gauss-Legendre 区间 -x -> 无穷大 : adaptive algorithm to transform weights and nodes efficiently
好的，我知道之前有人用一个有限的缩放示例问过这个问题 [-1, 1]间隔 [a, b] Different intervals for Gauss-Legendre quadrature in num

首页

博学

6Ren·AI

商城

r - 如何解决 R 中生存函数 95% 置信区间的差异