Python:如何处理回归 Q-Q 图中的异常值？-6ren

Python:如何处理回归 Q-Q 图中的异常值？

转载作者：行者123 更新时间：2023-11-30 09:02:56

31

4

我画了 qq 图多元回归，得到了下面的图。谁能告诉我为什么红线下面有两个点？这些点对我的模型有影响吗？

我使用下面的代码来绘制图表。

from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg = reg.fit(x_train,y_train)

pred_reg_GS = reg.predict(x_test)
diff= y_test-pred_reg_GS

import statsmodels.api as sm
sm.qqplot(diff,fit=True,line='45')
plt.show()

最佳答案

看看Understanding Q-Q Plots了解什么是 QQ 图的简明描述。就您而言，这个特定部分很重要:

If both sets of quantiles came from the same distribution, we should see the points forming a line that’s roughly straight.

这种理论上的一对一关系在您的图中使用红线明确地说明了。

关于你的问题...

that points effect for my model?

...远离红线的一个或两个点可能被认为是异常值。这意味着您尝试在此处构建的任何模型都无法捕获这些观察结果的属性。如果我们在这里看到的是回归模型残差的 QQ 图，您应该仔细查看这两个观察结果。这两个因素是什么让他们从其他样本中脱颖而出？ “捕获”这些异常值的一种方法通常是用一两个虚拟变量来表示它们。

<小时/>

编辑 1:异常值和虚拟变量的基本方法

<小时/>

由于您没有明确标记您的问题sklearn，我冒昧地使用statsmodels来说明这一点。我将只使用内置的 iris 数据集来代替您的数据示例，其中我们将使用的最后一部分如下所示:

1。 sepal_width 对 sepal_length 的线性回归

图 1:

看起来不错!这里没什么问题。但是，让我们通过向数据集中添加一些极值来将其混合一下。您将在最后找到完整的代码片段。

2。引入异常值

现在，让我们在数据框中添加一行“sepal_width = 8而不是3”。这将为您提供以下带有非常清晰的异常值的 qqplot:

这是模型摘要的一部分:

===============================================================================
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
sepal_width     1.8690      0.033     57.246      0.000       1.804       1.934
==============================================================================
Omnibus:                       18.144   Durbin-Watson:                   0.427
Prob(Omnibus):                  0.000   Jarque-Bera (JB):                7.909
Skew:                          -0.338   Prob(JB):                       0.0192
Kurtosis:                       2.101   Cond. No.                         1.00
==============================================================================

那么为什么这是一个异常值？因为我们搞乱了数据集。我无法确定数据集中出现异常值的原因。在我们虚构的示例中，山鸢尾的萼片宽度为 8 的原因可能很多。也许科学家把它贴错了？也许它根本就不是山毛榉？或者也许它已经被基因改造了？现在，不只是从样本中丢弃此观察结果，将其保留在原处通常会提供更多信息，接受此观察结果有一些特殊之处，并通过包含一个 11 的虚拟变量来准确说明这一点code> 表示该观察结果，0 表示所有其他观察结果。现在数据框的最后一部分应如下所示:

3。使用虚拟变量识别异常值

现在，你的 qqplot 将如下所示:

这是您的模型摘要:

=================================================================================
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
sepal_width       1.4512      0.015     94.613      0.000       1.420       1.482
outlier_dummy    -6.6097      0.394    -16.791      0.000      -7.401      -5.819
==============================================================================
Omnibus:                        1.917   Durbin-Watson:                   2.188
Prob(Omnibus):                  0.383   Jarque-Bera (JB):                1.066
Skew:                           0.218   Prob(JB):                        0.587
Kurtosis:                       3.558   Cond. No.                         27.0
==============================================================================

请注意，虚拟变量的包含会更改 sepal_widht 的系数估计值，以及 Skewness 和 Kurtosis 的值。这就是异常值对您的模型产生的影响的简短版本。

完整代码:

import numpy as np
import pandas as pd
import statsmodels.api as sm
from matplotlib import pyplot as plt
import seaborn as sns

# sample data
df = pd.DataFrame(sns.load_dataset('iris'))

# subset of sample data
df=df[df['species']=='setosa']

# add column for dummy variable
df['outlier_dummy']=0

# append line with extreme value for sepal width
# as well as a dummy variable = 1 for that row.
df.loc[len(df)] = [5,8,1.4, 0.3, 'setosa', 1]

# define independent variables
x=['sepal_width', 'outlier_dummy']

# run regression
mod_fit = sm.OLS(df['sepal_length'], df[x]).fit()
res = mod_fit.resid

fig = sm.qqplot(res)
plt.show()
mod_fit.summary()

关于Python:如何处理回归 Q-Q 图中的异常值？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59574109/

31

4

0

文章推荐： javascript - 用于 SWF 加载时间的 SWFObject 加载计时器

文章推荐：访问实例方法时的 JavaScript OO 问题

文章推荐： javascript - JS/HTML 嵌套引号的语法问题

文章推荐： javascript - 单击页面上的按钮，信息会下拉到按钮下方？

javascript - Q.fcall 和 (Q.defer + Q.resolve + Q.promise)/Q 库的区别
例子一 function first(a, b) { return a + b; } function second() { return Math.floor(Math.sqrt(a
equality - 如何或可能在 Coq 中证明或伪造 `forall (P Q : Prop), (P -> Q) -> (Q -> P) -> P = Q.` ？
我想证明或证伪forall (P Q : Prop), (P -> Q) -> (Q -> P) -> P = Q.在柯克。这是我的方法。 Inductive True2 : Prop := | O
java - 程序需要一直循环直到键入键 "Q"/"q"
程序提取数字，我希望它继续循环，直到用户键入“Q”/“q”键。例如，当用户按下“O”键时，程序应打印他们输入的数字的个位数，对于用户输入的任何 3 位数字，依此类推。当我现在运行代码时，没有输出，但也
javascript - Q 未处理的拒绝原因与 Q.all
我收到以下代码的警告，我不明白为什么。类似于这个问题:Unhandled rejection reasons (should be empty) 但是…… 我很确定我正在处理所有错误，那么为什么会出
javascript - Q 库 (javascript) - 在与 Q.all() 的 promise 中处理 q.reject()
我正在使用 Express 构建一个博客站点，并且是第一次使用 Q，我希望能够利用资深 Q 用户的知识。我向我的数据库发出一个请求以加载帖子数据，另一个请求命中 Instagram API(除非它已
tomcat - 用 q=* :* && q={keyword} && q=field:{keyword} in solr 4. 9 查询
我刚刚找到有关 apache solr 的信息，并且在我成功安装了带有 Tomcat 的 apache Solr 之后。然后我开始使用 Apache Solr 进行搜索。但我对 Apache Sol
mysql - 混淆 "p OR q"， "p AND q"，其中 "p"等于 "false"， "q"等于 "unknown"
我在 Stack Overflow post 上看到了下图但是，我对“p OR q”、“p AND q”的结果感到困惑，其中“p”等于“false”，“q”等于“unknown”。在图中，“p O
java - 当 p 和 q 是素数时，找到 n=p*q 的 'p' 和 'q'
有人向我提出了这个问题。 n = 77 n = p*q p and q is a prime number 用蛮力找到p和q。到目前为止我的代码: public class If { pub
algorithm - 如何找到两个素数 p 和 q，其中 p 和 q 足够大并且 q 整除 p − 1？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 4 年前。 Improve
q - 如何在 Q promise 中显示未处理错误的异常
我注意到如果 .then()回调由于任何错误(例如对 undefined variable 的操作)而失败，并且没有 .catch()相关联，该错误将被静默忽略。这在开发过程中很不舒服。例如，此代
perl - 为什么 q/\\a/等于 q/\a/？
以下示例打印“SAME”: if (q/\\a/ eq q/\a/) { print "SAME\n"; } else { print "DIFFERENT\n"; } 我理解这与 d
Python:如何处理回归 Q-Q 图中的异常值？
我画了 qq 图多元回归，得到了下面的图。谁能告诉我为什么红线下面有两个点？这些点对我的模型有影响吗？我使用下面的代码来绘制图表。 from sklearn.linear_model import
c - "void foo(int q[][4]){}"中的 q 是什么类型？使用 "void foo(int q[6][4]){}"与前者有何不同？
我确定 int q[6][4] 中的 q 的类型为 (**q)[4]，即, 指向大小为 4 的整数数组的指针。但是我的书(我发现它很可疑!!)说函数定义中的 int q[][4] 部分 void fo
coq - 如何证明coq中的引理 "(P\/Q)/\~P -> Q."？
我试图用 tatics [intros]、[apply]、[assumption]、[destruct]、[left]、[right]、[split] 来证明这个引理，但失败了。谁能教教我怎么证明？
javascript - 使用 q.js，q.all 是否执行立即函数？
使用 q.all 时，我的数组中的立即函数似乎没有执行。每个函数都应该创建一个已解决的 promise ，将其打印到控制台，然后返回它。我没有看到控制台输出，但 Q.all 似乎很满意，并用 2 个空
python - 在 Q 学习的开放式环境中，Q 矩阵维度应该是多少
我想在 OpenAI 的 Bipedal Walker v2 中实现 Q 学习，但在寻找教程后，它们似乎总是有限环境，这使得 Q 矩阵和奖励矩阵易于初始化。例如:http://mnemstudio.
C - 为什么这个表达式 *q = *(q + 1) 在处理字符串时产生错误？
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
javascript - angularjs和requirejs中 "Q"和 "q"的区别
我正在创建一个基于 AngularJS、Breeze 和 RequireJS 的单页应用程序。在使用 requirejs 设置 AMD 以使用 Angular 和 Breeze 时，我遇到了 Bree
javascript - Angular : $q. defer() 与 $q()
这个问题在这里已经有了答案: Difference between defer().promise and Promise (1 个回答) 关闭 6 年前。在 Angular 中，以下代码片段似乎
c++ - Recv-Q+Send-Q>写入字节
我写了一个 tcp 服务器和一个 tcp 客户端，客户端只向服务器发送数据并打印它写入了多少字节，服务器只接受连接，然后我使用 netstat 显示套接字的 Recv-Q 和 Send-问，我发现 R

首页

博学

6Ren·AI

商城