math - 如何调整方程的系数以获得 y 和 x

math - 如何调整方程的系数以获得 y 和 x_i 之间的高相关性？

转载作者：行者123 更新时间：2023-12-04 19:48:30

25

4

给定一组变量，x的。我想找到这个方程的系数值:

y = a_1*x_1 +... +a_n*x_n + c

哪里 a_1,a_2,...,a_n都是未知数。从数据框的角度考虑这一点，我想创建这个值 y对于数据中的每一行。

我的问题是:对于 y, a_1...a_n和 c都是未知数，有没有办法让我找到一套解决方案 a_1,...,a_n在 corr(y,x_1), corr(y,x_2) .... corr(y,x_n)的条件下均大于 0.7。为简单起见，这里将相关性作为 Pearson 相关性。我知道不会有唯一的解决方案。但是如何为 a_1,...,a_n构建一套解决方案？满足这个条件？

花了一天时间搜索这个想法，但无法从中获得任何信息。欢迎任何解决此问题的编程语言，或至少为此提供一些引用。

最佳答案

不，这是不可能的。在某些特殊情况下可能是可能的。

给定 x₁, x₂, ... 你想找到 y = a₁x₁ + a₂x₂ + ... + c 以便 y 和 x 之间的所有相关性都大于某个目标 R。因为相关性是

Corr(y, xi) = Cov(y, xi) / Sqrt[ Var(y) * Var(xi) ]

你的约束是

Cov(y, xi) / Sqrt[ Var(y) * Var(xi) ] > R

可以重新排列为

Cov(y, xi)² > R² * Var(y) * Var(xi)

这需要对所有 i 都成立。

考虑只有两列 x₁ 和 x₂ 的简单情况，并进一步假设它们的均值为零(因此您可以忽略常数 c)和方差为 1，并且它们不相关。在这种情况下，y = a₁x₁ + a₂x₂，协方差和方差为

Cov(y, x₁) = a₁
Cov(y, x₂) = a₂
Var(x₁)    = 1
Var(x₂)    = 1
Var(y)     = (a₁)² + (a₂)²

所以你需要同时满足

(a₁)² > R² * ((a₁)² + (a₂)²)
(a₂)² > R² * ((a₁)² + (a₂)²)

将这些不等式加在一起，你得到

(a₁)² + (a₂)² > 2 * R² * ((a₁)² + (a₂)²)

这意味着为了满足这两个不等式，您必须有 R < Sqrt(1/2) (通过消除不等式两边的公因数)。因此，在这个简单的情况下，您可以做的最好的事情是选择 a₁ = a₂(只要它们相等，确切的值就无关紧要)以及相关性 Corr(y,a₁) 和 Corr(y,a₂)将等于 0.707。在这种情况下，您无法同时在 y 和所有 x 之间实现高于此的相关性。

对于更一般的情况 n列(每个列的均值为零、方差为 1 和列之间的相关性为零)您无法同时实现大于 1 / sqrt(n) 的相关性(正如@kazemakase 在评论中指出的那样)。

一般来说，自变量越多，y 和 x 之间的相关性就越低。还有(虽然我上面没有提到)x 之间的相关性。如果它们通常呈正相关，您将能够在 y 和 x 之间实现更高的目标相关性。如果它们通常不相关或负相关，您将只能在 y 和 x 之间实现低相关性。

关于math - 如何调整方程的系数以获得 y 和 x_i 之间的高相关性？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35219036/

25

4

0

文章推荐： lua - 如何使用 corona sdk 去除子弹

文章推荐： wpf - WinForms ReportViewer 挂起应用程序 WPF

文章推荐： selenium - 使用 phantomjs/selenium 单击 Google OAuth2 批准按钮

r - 来自矩阵的 Spearman 相关性
我有一个如下所示的数据框: Samples GENE GEN1 GEN2 GEN3 GEN4 GEN5 Sample1 21.0 160 110 3.90 2.62 16.5 Sa
elasticsearch - 基于大多数匹配的查询的 Elasticsearch 相关性
我有以下映射 posts":{ "properties":{ "prop1": { "type": "nested", "properties": { "item
r - 相同维度的两个矩阵之间的 Spearman 相关性
我有两个维度相等的矩阵(p 和 e)，我想在同名的列之间建立斯 PIL 曼相关。我想在矩阵 (M) 中输出对相关性我使用了 Psych 库中的 corr.test() 函数，这是我所做的: libr
r - 相同维度的两个矩阵之间的 Spearman 相关性
我有两个维度相等的矩阵(p 和 e)，我想在同名的列之间建立斯 PIL 曼相关。我想在矩阵 (M) 中输出对相关性我使用了 Psych 库中的 corr.test() 函数，这是我所做的: libr
stata - 如何导出 Spearman 相关性
我正在尝试使用 estpost 和 community-contributed 命令将 Spearman 相关矩阵导出到 rtf 或 Excel 文件中 esttab。但是，我收到以下错误: inv
mysql - ORDER BY 相关性，同时使用参数化值
我在网上找到了以下查询: SELECT company_title FROM companies WHERE company_title like '%gge%' GROUP BY compa
mysql - 如何构建即时搜索引擎？ (具有排名/相关性)
我是 Sphinx 和 Lucene 的重度用户。Sphinx 只需要一个数据库，对其进行索引。然后您调用 Sphinx 获取 ID。但是，如果我想创建一个非常微型的搜索引擎怎么办？就几行数据，几
相关性/匹配值(value)树算法
是否有我要在下面描述的模式/算法的名称？... 假设您有一棵像这样的相关数据树: IDEs Visual Studio Visual Studio 2008 Visual Studio 2010 Ec
linux - 两列之间的 Pearson 相关性
早上好。这是我的问题:我有几个文件，如下所示: 104 0.1697 12.3513214 15.9136214 112 -0.3146 12.0517303 14.8027303 122 0.271
elasticsearch - ES function_score中_score(相关性)的值范围是多少？
在尝试将function_score与boost_mode: "sum"一起使用时(因为这样可以更轻松地跟踪不同的贡献)，我想归一化查询相关性对整体文档分数的影响，但是为此，我需要知道它可以取什么值。
java - mahout Spearman 相关性 java
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
python - scipy:spearmanr 返回值的重要性(相关性)
X,Y 的 spearmanr(Spearman 相关性)输出为我提供以下信息: 相关性:0.54542821980327882 P 值:2.3569040685361066e-65 其中 len(X
python - 部分日期的 Pandas DataFrame 相关性
我有一个 Pandas 数据框，它有一个七年时间范围内的日期时间索引和 10 种不同 Assets 的价格数据。我想运行 dataframe.corr 函数来评估 Assets 之间的关系，我的问题是
algorithm - 字符串比较算法，相关性， "alike"2个字符串是多少
我有相同数据(公司)的 2 个信息源，我可以通过唯一 ID(契约(Contract)号)将它们连接在一起。第二个不同来源的存在是由于这两个来源是手动独立更新的。所以我在 2 个表中有一个 ID 和一个
php - PHP 中的 Pearson 相关性
我正在尝试在php中实现两组数据之间人员相关系数的计算。我只是想做可以在这个 url 上找到的移植 python 脚本 http://answers.oreilly.com/topic/1066-ho
PHP 和 Elasticsearch 在返回的对象中包含分数/相关性
所以我使用 PHP Symfony 和 Ongr-Elasticsearch 包来查询我的文档并返回匹配的对象。结果似乎按相关性/分数排序，但实际相关性/分数不包含在对象本身中。这可能吗？我想将分数
python - Pandas 滚动窗口 Spearman 相关性
我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和/或 Pearson 相关性。我试过df['corr'] = df['col1'].rolling(P).corr(df['
r - 找到最佳方法来计算 R 中数百万个组合的最高 Pearson 相关性
我正在处理一个大型数据集。不过，我将从一个小示例开始，以说明我要实现的目标。我有以下向量: season %group_by(season, round, team)%>%dplyr::mutate
c# - .AspNetCore.相关性。未找到国家属性(property)。未知位置
我正在使用 OIDC 的混合身份验证流程。 options.Events.OnRedirectToIdentityProvider = redirectContext =>
elasticsearch - Elasticsearch 错误- undefined variable [相关性]
我正在尝试查询我的产品ElasticSearch索引并创建一个script_score，但我一直收到错误Variable [relevancy] is not defined. 我尝试只用一个数字替换

首页

博学

6Ren·AI

商城

math - 如何调整方程的系数以获得 y 和 x_i 之间的高相关性？