pandas - 单热编码的多重共线性-6ren

pandas - 单热编码的多重共线性

转载作者：行者123 更新时间：2023-12-02 03:06:46

32

4

我们是否总是需要为单热编码删除一列以防止多重共线性？在这里的解决方案(https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic/comments#138896)中提到

@Kevin Chang You need to delete one column of the dummy variables to avoid the state of Multicollinearity. It's a state of very high correlations among the columns(independent variables); meaning that one can be predicted from the others. It is therefore, a type of disturbance in the data, and if present in the data the statistical conclusions made about the data may not be reliable.

在此处的解决方案中，没有考虑到多重共线性 https://www.kaggle.com/sharmasanthosh/allstate-claims-severity/exploratory-study-on-ml-algorithms

我可以知道这是必须的吗，或者在什么情况下我们需要满足它？

最佳答案

如果我必须回答您的问题“我们是否总是需要删除单热编码的列以防止多重共线性？”，答案是肯定的。

防止多重共线性的常用方法是从模型中删除高度相关的预测变量。如果您有两个或更多具有高 VIF 的因子，请从模型中删除一个。因为它们提供了冗余信息，所以移除其中一个相关因素通常不会降低 R 平方。

或者您可以使用偏最小二乘回归 (PLS) 或主成分分析，这些回归方法可将预测变量的数量减少到更小的不相关成分集。

关于pandas - 单热编码的多重共线性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42224430/

32

4

0

文章推荐： scripting - GRUB 脚本中的文件名通配符扩展

文章推荐： isabelle - 基本伊莎贝尔序列极限证明

文章推荐： ssis - 提供的连接必须是 AstDbConnectionNode 类型

ios - UIScrollview 从第 3 页(共 5 页)开始，而不是从第 1 页(共 5 页)开始
我创建了一个 View (称为 masterView)，CGRect 的 x=160、y=186、width=1600、height=380。该 View 包含 5 个 subview ，每个 sub
r - 如何使用R从具有多列的数据框中计算(共)发生矩阵？
我是 R 的新手，目前正在处理边缘列表形式的协作数据，该列表具有 32 列和大约 200.000 行。我想根据国家之间的相互作用创建一个(共)现矩阵。但是，我想通过对象的总数来计算交互次数。期望结果
Coq:在不丢失信息的情况下破坏(共)归纳假设
考虑以下发展: Require Import Relation RelationClasses. Set Implicit Arguments. CoInductive stream (A : Typ
haskell - (共)递归定义如何在 Haskell 中工作？
我正在玩弄这种语言来开始学习，我对递归定义的工作原理感到困惑。例如，让我们采用三角形数的序列(TN n = sum [1..n]) 提供的解决方案是: triangularNumbers = sca
php - 获取php DateInterval 共 'minutes'
我正在尝试获取“总分钟数”值中的 PHP“DateInterval”值。如何获得？似乎简单格式(“%i 分钟”)不起作用？示例代码如下: $test = new \DateTime("48 hour
javascript - 如果我没有填写所有第一封电子邮件(共 3 封)，则该操作不会执行
我有这个脚本可以通过电子邮件自动发送负载信息: if(confirm('', 'Are you sure?') == true) { // enviar mails var emails = new
SQL COUNT 个，共 COUNT 个
我有一些数据要查询。该表由两列组成 - 一个唯一 ID 和一个值。我想计算每个唯一值出现的次数(这可以通过 COUNT 和 GROUP BY 轻松完成)，但我希望能够对其进行计数。所以，我想看看有多少
Java 代码 PMD 提示圈复杂度，共 20
当我在我的 Java 代码上运行 PMD 时，它显示的错误消息之一是“类 STWeb 具有 20 的圈复杂度”。通常我的java类是这样的 public class STWeb implements
CSS 在页面底部显示第 1 页，共 10 页
尝试在打印时在页面底部显示第 1 页，共 10 页... 第 1 页，共 0 页正在显示，因此计数器(页面)似乎无法正常工作。我正在使用 Chrome，所以 @pages { ... 也不起作用。有
karma-runner - 运行单元测试时执行 0 个错误，共 0 个错误
我在尝试运行单元测试用例时收到 Executed 0 of 0 ERROR 错误。我遵循了针对此问题提到的几个解决方案，但我仍然遇到相同的错误。尝试过: 删除 angular-scenario 文件
wpf - 我们如何提高 WPF 动画(共 100 个)的性能？
我们有一个应用程序，可以在运行时生成大约 100 个动画，并将它们全部添加到单个 Storyboard 中然后播放。问题是动画速度非常慢。进行动画处理的对象是形状和样条线，并且在后端完成大量计算以生成
java - 凯撒加密。数组在索引 73(共 73 个)中超出范围
我正在为数学演示编写凯撒加密代码。今天，我一直在为我的演讲编写代码。早上这个代码就开始工作了。但现在在学校，我遇到了一个异常(exception)，我认为 for 超出了我的符号表的长度。异常(ex
c - 用 C 编写函数，计算给定整数位数的个数，共 2 行
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 6 年前。 Improve th
iphone - 使用搜索栏时，表格仅显示 2 个标签(共 4 个)
我有一张带有 4 个标签的表格，效果很好。当我使用也能正常工作的搜索栏时，表格只显示两个标签: - (void)viewDidLoad { [super viewDidLoad]; NSS
Java iText 第 X 页，共 Y 页
我正在使用 iText 在我的 Java EE 应用程序中生成 PDF 文档。 PDF 文件的编码驻留在 JSP 中。我想在每个页脚中实现以下页面格式， REF:XXXXXXX 第 X 页，共第 Y
java - 如何检查哪个线程(共 10 个)调用了 Singleton 构造函数？
我试图找出(出于好奇)哪个线程实际调用了单例构造函数。好吧，我完全理解每次执行测试程序时线程都会不同，只是想在实用上检查是否相同。我试过 dumpStack() printStackTrace() g
javascript - 更改文本中的值以查看第 1-6 个(共 14 个)
我在工作时遇到了一些麻烦。这可能真的很简单，但我让它变得比可能的更困难。所以我有一个包含 3 组 UL 的 div。代码如下: content here content here c
javascript - Jqgrid 显示第 1 页，共 0 页为空
我有一个问题，当网格为空时，为什么它显示 Page 1 of 0 不能是 Page 1 of 1 或更合理的东西吗？我的代码 var xml=client.responseText;
ios - Crashlytics 安装 - 停留在验证安装第 2 步(共 2 步)
我想将 Crashlytics 添加到我的项目中，我根据 Fabric Mac 应用程序制作了所有内容，现在我停留在 Step 2 of 2 when verifying installation 我
c++ - 第 x 页，共 y 页，使用 QPrinter
我正在使用 qt 从 html 代码生成一个 pdf 文件: QTextDocument *document = new QTextDocument(); document->setHtml(html

首页

博学

6Ren·AI

商城

pandas - 单热编码的多重共线性