gpt4 book ai didi

r - LDA解释

转载 作者:行者123 更新时间:2023-12-03 21:46:47 25 4
gpt4 key购买 nike

我使用 HMeasure 包将 LDA 纳入我关于信用风险的分析中。我有 11000 个 obs,我选择了年龄和收入来进行分析。我不知道如何解释 LDA 的 R 结果。所以,我不知道我是否根据信用风险选择了最佳变量。
我在代码下面给你看。

lda(default ~ ETA, data = train)

Prior probabilities of groups:
       0         1
0.4717286 0.5282714

Group means:
      ETA
0 34.80251
1 37.81549

Coefficients of linear discriminants:
         LD1
ETA 0.1833161
lda(default~ ETA + Stipendio,  train)

Call:
lda(default ~ ETA + Stipendio, data = train)

Prior probabilities of groups:
       0         1
0.4717286 0.5282714

Group means:
      ETA Stipendio
0 34.80251  1535.531
1 37.81549  1675.841

Coefficients of linear discriminants:
                 LD1
ETA       0.148374799
Stipendio 0.001445174
lda(default~ ETA, train)
ldaP <- predict(lda, data= test)

其中 ETA = AGE 和 STIPENDIO = 收入

非常感谢!

最佳答案

LDA 使用每个类的均值和方差来创建它们之间的线性边界(或分离)。该边界由系数定界。

您有两种不同的模型,一种取决于变量 ETA和一个依赖于 ETAStipendio .

您首先看到的是 Prior probabilities of groups .这些概率是您的训练数据中已经存在的概率。 IE。 47.17% 的训练数据对应于信用风险评估为 0,52.82% 的训练数据对应于信用风险评估为 1。(我假设 0 表示“无风险”,1 表示“有风险”)。这些概率在两个模型中是相同的。

您可以看到的第二件事是组均值,它是每个类中每个预测变量的平均值。这些值可能表明变量 ETA对风险信贷 (37.8154) 的影响可能略大于对非风险信贷 (34.8025) 的影响。这种情况也发生在变量 Stipendio 上。 ,在你的第二个模型中。
ETA 的计算系数在第一个模型中是 0.1833161。这意味着两个不同类别之间的边界将由以下公式指定:

y = 0.1833161 * ETA

这可以用以下 line 表示( x 代表变量 ETA)。 0 或 1 的信用风险将根据它们位于线的哪一侧进行预测。

enter image description here

您的第二个模型包含两个因变量, ETAStipendio ,所以类之间的边界将由这个公式划定:
y = 0.148374799 * ETA + 0.001445174 * Stipendio

如您所见,此公式表示 plane . ( x1 代表 ETAx2 代表 Stipendio )。与之前的模型一样,这个平面代表了风险信用和非风险信用之间的差异。

enter image description here

在第二个模型中, ETA系数远大于 Stipendio系数,表明前一个变量比后一个变量对信用风险的影响更大。

我希望这有帮助。

关于r - LDA解释,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40087417/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com