r - r 中的条件概率-6ren

r - r 中的条件概率

转载作者：行者123 更新时间：2023-12-02 02:02:14

26

4

问题:

针对影响 0.05% 男性人口的疾病的筛查测试能够在 90% 的个体实际患有该疾病的病例中识别出该疾病。然而，该测试会产生 1% 的假阳性(当个体没有患病时给出阳性读数)。计算检测结果呈阳性的男性患有该疾病的概率。然后，计算一个人在检测结果呈阴性的情况下患有该疾病的概率。

我的错误尝试:

我首先让:• T 指一名男子检测结果呈阳性的事件• 男子检测结果呈阴性的事件• D 是一个人实际上患有该疾病的事件• Dc 是指男性没有患病

因此我们需要找到 P(D|T) 和 P(D|Tc)

然后我写了这段代码:

set.seed(110)
sims = 1000

D = rep(0, sims)
Dc = rep(0, sims)
T = rep(0, sims)
Tc = rep(0, sims)

# run the loop
for(i in 1:sims){
  
  # flip to see if we have the disease
  flip = runif(1)
  
  # if we got the disease, mark it
  if(flip <= .0005){
    D[i] = 1
  }
  
  # if we have the disease, we need to flip for T and Tc, 
  if(D[i] == 1){
    
    # flip for S1
    flip1 = runif(1)
    
    # see if we got S1
    if(flip1 < 1/9){
      T[i] = 1
    }
    
    # flip for S2
    flip2 = runif(1)
    
    # see if we got S1
    if(flip2 < 1/10){
      Tc[i] = 1
    }
  }
}


# P(D|T)
mean(D[T == 1])

# P(D|Tc)
mean(D[Tc == 1])

我真的很挣扎，所以任何帮助将不胜感激!

最佳答案

也许思考此类条件概率问题的最佳方法是通过具体示例。

假设我们对人群中的 100 万人进行了测试。那么预计有 500 人(百万人中的 0.05%)患有该疾病，其中 450 人预计检测呈阳性，50 人检测呈阴性(因为假阴性率为 10%)。

相反，预计 999,500 人不会患有这种疾病(100 万人减去确实患有这种疾病的 500 人)，但由于其中 1% 的检测呈阳性，因此我们预计有 9,995 人(999,500 中的 1%)出现假阳性结果。

因此，如果随机抽取一个阳性检测结果，它要么属于 450 名检测呈阳性的患病者之一，要么属于 9,995 名检测呈阳性的未患病者之一 - 我们不知道是哪一个。

这是第一个问题的情况，因为我们有一个阳性检测结果，但不知道它是真阳性还是假阳性。我们的受试者患有该疾病的概率给定他们的阳性检测结果是他们是 10,445 名阳性结果中的 450 名真阳性之一的概率(9995 假阳性 + 450 真阳性)。简单计算即可得出 450/10,445 或 0.043，即 4.3%。

同样，随机进行的阴性检测要么属于 989505 (999500 - 9995) 名未患病且检测呈阴性的人中的一名，要么属于 50 名患有的人 em> 检测结果呈阴性的疾病，因此患有该疾病的概率为 50/989505，即 0.005%。

我认为这个问题证明了在解释测试结果时需要考虑疾病患病率的重要性，而与编程或 R 关系不大。它只需要一个计算器(最多)。

如果您确实想在 R 中运行模拟，您可以这样做:

set.seed(1) # This makes the sample reproducible

sample_size <- 1000000 # This can be changed to get a larger or smaller sample

# Create a large sample of 1 million "people", using a 1 to denote disease and
# a 0 to denote no disease, with probabilities of 0.0005 (which is 0.05%) and
# 0.9995 (which is 99.95%) respectively.
disease <- sample(x = c(0, 1), 
                  size = sample_size, 
                  replace = TRUE, 
                  prob = c(0.9995, 0.0005))

# Create an empty vector to hold the test results for each person
test <- numeric(sample_size)

# Simulate the test results of people with the disease, using a 1 to denote
# a positive test and 0 to denote a negative test. This uses a probability of
# 0.9 (which is 90%) of having a positive test and 0.1 (which is 10%) of having
# a negative test. We draw as many samples as we have people with the disease
# and put them into the "test" vector at the locations corresponding to the
# people with the disease.
test[disease == 1] <- sample(x = c(0, 1), 
                             size = sum(disease), 
                             replace = TRUE, 
                             prob = c(0.1, 0.9))

# Now we do the same for people without the disease, simulating their test
# results, with a 1% probability of a positive test.
test[disease == 0] <- sample(x = c(0, 1), 
                             size = 1e6 - sum(disease), 
                             replace = TRUE, 
                             prob = c(0.99, 0.01))

现在我们已经运行了模拟，我们可以通过创建列联表来计算真阳性、假阳性、真阴性和假阴性

contingency_table <- table(disease, test)

contingency_table
#>        test
#> disease      0      1
#>       0 989566   9976
#>       1     38    420

并得到这样的阳性测试患上这种疾病的近似概率:

contingency_table[2, 2] / sum(contingency_table[,2])
#> [1] 0.04040015

以及在阴性测试中患病的概率如下:

contingency_table[2, 1] / sum(contingency_table[,1])
#> [1] 3.83992e-05

您会注意到，由于某些采样概率非常小，采样的概率估计值并不那么准确。您可以模拟更大的示例，但您的计算机可能需要一段时间才能运行它。

^{由 reprex package 于 2021 年 8 月 19 日创建(v2.0.0)}

关于r - r 中的条件概率，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68849489/

26

4

0

文章推荐： html - Angular:在同一个按钮上使用(单击)和 routerLink

文章推荐： batch-file - 批处理文件中的条件语句

文章推荐： multithreading - Haskell 计算密集型线程阻塞所有其他线程

文章推荐： JavaScript 计算器 - 允许负数作为第一个操作数

mySQL IF 条件 THEN 条件
我正在努力处理查询的 WHERE 部分。查询本身包含一个基于两个表中都存在的 ID 的 LEFT JOIN。但是，我要求 where 语句仅返回其中一列中存在的最大单个结果。目前我返回连接中的所有值，
python - 我的代码有一个 if-else 条件，但我认为代码没有检查 if 条件，而是直接进入 else 条件
我有这个代码来改变文件系统的大小。问题是，即使满足 if 条件，它也不会进入 if 条件，而我根本没有检查 if 条件。它直接进入 else 条件。运行代码后的结果 post-install-ray
excel - SUMIF(条件，值)、SUMPROD(条件，值)和 SUM(条件*值)之间的区别
假设我有一个包含 2 列的 Excel 表格:单元格 A1 到 A10 中的日期和 B1 到 B10 中的值。我想对五月日期的所有值求和。我有3种可能性: {=SUM((MONTH(A1:A10)=
LINQ:选择 <条件> 或 <条件>
伪代码: SELECT * FROM 'table' WHERE ('date' row.date 或，我们在Stack Overflow上找到一个类似的问题： https://stackove
mysql - Yii 条件 - 修改以包含 OR 条件
我有下面这行代码做一个简单的查询 if ($this->fulfilled) $criteria->addCondition('fulfilled ' . (($this->fulfilled
PHP 条件 vs MySQL 条件
如果在数据库中找到用户输入的键，我将尝试显示“表”中的数据。目前我已将其设置为让数据库检查 key 是否存在，如下所示: //Select all from table if a key entry
我们是否可以通过改变 if 条件，在执行完 else 条件后返回执行 if 条件？
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 5 年前。 Improve th
mysql - 是否可以先加入 if 条件，然后再加入 Else 条件
在MYSQL中可以吗一共有三个表任务(task_id、task_status、...) tasks_assigned_to(ta_id、task_id、user_id) task_suggeste
mysql - 首先按(条件)排序，然后按(条件)排序
我想先根据用户的状态然后根据用户名来排序我的 sql 请求。该状态由 user_type 列设置: 1=活跃，2=不活跃，3=创始人。我会使用此请求来执行此操作，但它不起作用，因为我想在“活跃”成员
c# - 嵌套的 if 条件 vs 多个分离的 if 条件，每个条件都有 return 语句
下面两个函数中最专业的代码风格是什么？如果函数变得更复杂和更大，例如有 20 个检查怎么办？注意:每次检查后我都需要做一些事情，所以我不能将所有内容连接到一个 if 语句中，例如: if (veh
sql-server - OrderBy().FirstOrDefault(<条件>) 与Where(<条件>).OrderBy().FirstOrDefault()
我在 C# 项目中使用 EntityFramework 6.1.3 和 SQL Server。我有两个查询，基本上应该执行相同的操作。 1. Exams.GroupBy(x=>x.SubjectID)
postgresql - CASE WHEN 条件 1 AND 条件 2 then x else y postgreSQL
我试图在 case when 语句中放入两个条件，但我在 postgresql 中遇到语法错误 case when condition 1 and condition 2 then X else Y
php - 在 LEFT JOIN table1 ON 条件 1 OR 条件 2 中使用 OR 会导致不必要的问题吗？
我正在构建一个连接多个表的查询，一个表 prodRecipe 将包含某些行的数据，但不是全部，但是 tmp_inv1 将包含所有行的计数信息。问题是，tmp_inv1.count 取决于某个项目是否在
SQL INDEX 不用于 WHERE ABS(x-y) < k 条件，但用于 y - k < x < y + k 条件
我有一个涉及 couples of rows which have a less-than-2-hours time-difference 的查询(~0.08333 天): SELECT mt1.*,
Perl OR 条件
我有一个包含许多这样的 OR 条件的代码(工作正常)来检查其中一个值是否为空，然后我们抛出一条错误消息(所有这些都必须填写) } elsif ( !$params{'account'}
SQL 条件 where
我有一个名为 spGetOrders 的存储过程，它接受一些参数:@startdate 和 @enddate。这将查询“订单”表。表中的一列称为“ClosedDate”。如果订单尚未关闭，则此列将保留
LINQ - if 条件
在代码中，注释部分是我需要解决的问题...有没有办法在 LINQ 中编写这样的查询？我需要这个，因为我需要根据状态进行排序。 var result = ( from contact in d
SQL:条件 AND in where
我正在尝试创建一个允许省略参数的存储过程，但如果提供了参数，则进行 AND 操作: CREATE PROCEDURE MyProcedure @LastName Varchar(30)
正则表达式 IF 条件
我正在寻找一种方法来过滤我的主机文件中的新 IP 地址。我创建了一个脚本，每次我用来自矩阵企业管理器的数据调用它时都会更新我的主机文件。它工作正常。但是我必须找到一个解决方案，只允许更新 10.XX.
jQuery 条件
所以我正在做一种 slider ，当它完全向下时隐藏向下按钮，反之亦然，当向上按钮隐藏时，我遇到了问题。 var amount = $('slide').attr('number'); $('span

首页

博学

6Ren·AI

商城

r - r 中的条件概率