gpt4 book ai didi

r - 通过 R 中的 IV 值对连续变量进行分箱

转载 作者:行者123 更新时间:2023-12-04 20:53:52 24 4
gpt4 key购买 nike

我正在 R 中构建逻辑回归模型。我想以与目标变量相关的最佳方式对连续预测变量进行分类。我知道的有两件事:

  • 连续变量被分箱,使其 IV(信息值)最大化
  • 最大化双向列联表中的卡方——目标有两个值 0 和 1,分箱连续变量有分箱桶

  • 有谁知道 R 中可以执行这种分箱的任何函数?

    对你的帮助表示感谢。

    最佳答案

    对于第一点,您可以将证据权重 (woe) 与 结合使用。包邮它优化了 IV 的 bin 数量

    library(woeBinning)

    # get the bin cut points from your dataframe
    cutpoints <- woe.binning(dataset, "target_name", "Variable_name")
    woe.binning.plot(cutpoints)

    # apply the cutpoints to your dataframe
    dataset_woe <- woe.binning.deploy(dataset, cutpoint, add.woe.or.dum.var = "woe")

    它返回带有两个额外列的数据集
  • Variable_name.binned 是标签
  • Variable_name.woe.binned 这是被替换的值,然后您可以将其解析为回归而不是 Variable_name

  • 对于第二点,在 chi2 上, package discretization 似乎可以处理,但我还没有测试过。

    关于r - 通过 R 中的 IV 值对连续变量进行分箱,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7018954/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com