gpt4 book ai didi

python - 数据预处理 Python

转载 作者:行者123 更新时间:2023-11-30 09:54:37 25 4
gpt4 key购买 nike

我有一个Python DataFrame,我需要预处理我的数据。哪种是预处理数据的最佳方法?要知道某些变量具有巨大的规模,而其他变量则不然。数据也没有太大的偏差。我尝试使用 preprocessing.Scale 函数并且它有效,但我完全不确定这是否是继续进行机器学习算法的最佳方法。

最佳答案

数据预处理有多种技术,您可以引用 sklearn.preprocessing 中的想法作为潜在的遵循指南。

http://scikit-learn.org/stable/modules/preprocessing.html

预处理与您正在研究的数据相关,但一般来说您可以探索:

  1. 通过计算每列的百分比来评估缺失值
  2. 计算方差并删除方差接近零的变量
  3. 评估变量间相关性以检测冗余

您可以在 pandas 中轻松计算这些分数,如下所示:

data_file = "your_input_data_file.csv"
data = pd.read_csv(data_file, delimiter="|")
variance = data.var()
variance = variance.to_frame("variance")
variance["feature_names"] = variance.index
variance.reset_index(inplace=True)
#reordering columns
variance = variance[["feature_names","variance"]]
logging.debug("exporting variance to csv file")
variance.to_csv(data_file+"_variance.csv", sep="|", index=False)

missing_values_percentage = data.isnull().sum()/data.shape[0]
missing_values_percentage = missing_values_percentage.to_frame("missing_values_percentage")
missing_values_percentage["feature_names"] = missing_values_percentage.index
missing_values_percentage.reset_index(inplace=True)
missing_values_percentage = missing_values_percentage[["feature_names","missing_values_percentage"]]
logging.debug("exporting missing values to csv file")
missing_values_percentage.to_csv(data_file+"_mssing_values.csv", sep="|", index=False)
correlation = data.corr()
correlation.to_csv(data_file+"_correlation.csv", sep="|")

上面将生成三个文件,分别保存方差、缺失值百分比和相关结果。

引用this博客文章提供实践教程。

关于python - 数据预处理 Python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36575776/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com