gpt4 book ai didi

Python Pandas 回归

转载 作者:行者123 更新时间:2023-11-30 09:37:22 29 4
gpt4 key购买 nike

[在此处输入图像描述][1]我正在努力弄清楚回归是否是我需要走的路线,以便解决我当前使用 Python 的挑战。这是我的场景:

  • 我有一个 195 行 x 25 列的 Pandas Dataframe
  • 所有数据(索引和标题除外)均为整数
  • 我希望将某一特定列(B 列)与所有其他列进行比较
  • 尝试确定任何列中是否存在影响 B 列的数字范围
  • 我想用 Python 计算的结果示例类似于:当 D 列中的数据介于 10.20 - 16.4 之间时,B 列高于 3.5

我在线阅读的 Python 回归示例似乎生成了我不需要的图表和统计数据(或者可能是我解释错误)。我相信描述我所要求的内容的正确措辞是识别 Pandas 数据框中两列之间呈线性的特定值或一系列值。

有人能帮我指出正确的方向吗?

先谢谢大家了!

最佳答案

此时,您的目标听起来非常像探索性数据分析。您可能应该首先使用 pandas.Series.corr 计算目标列 B 与任何其他之间的相关性 (这实际上与二元回归相同),您可以列出:

other_cols = [col for col in df1.columns if col !='B']
corr_B = [{other: df.loc[:, 'B'].corr(df.loc[:, other])} for other in other_col]

要了解特定范围,我建议查看:

  • cutqcut 功能可根据您的喜好bin您的数据,并相应地绘制或关联子集:请参阅文档 herehere .

为了可视化双变量和简单的多变量关系,我建议

  • seaborn 包,因为它包含各种类型的绘图,旨在帮助您快速掌握变量之间的协变。例如,请参阅单变量和双变量分布的示例 here ,线性关系图 here和分类数据图 here .

以上内容应该可以帮助您理解二元关系。一旦您想要发展到多元关系,您可以返回到 scikit-learnstatsmodels恕我直言,python 中最适合此目的的软件包。希望这有助于您入门。

关于Python Pandas 回归,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34668181/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com