gpt4 book ai didi

python - 使用 Python (Pandas) 的新计算列的性能影响

转载 作者:行者123 更新时间:2023-11-30 22:15:37 25 4
gpt4 key购买 nike

我正在使用 Python、numpy 等,目的是进入 tensorflow 和机器学习并真正理解一切,而不仅仅是“如何运行”部分。

在许多情况下,我需要使用 matplotlib 预处理数据以进行可视化,并且我不确定是否有更高效的方法甚至“即时”处理来有效地获得与下面的代码返回(df 是 pandas 数据框):

def calculate(s):
cl = 100 if s["income-class"] == "<=50K" else 300
return cl


df["incomeClassNum"] = df.apply(lambda row: calculate(row), axis=1)

plt.scatter(df[["age"]], df[["education-num"]], s=df["incomeClassNum"])
plt.show()

感谢您的建议和反馈,马丁

最佳答案

使用矢量化numpy.where :

df["incomeClassNum"] = np.where(df["income-class"] == "<=50K", 100, 300)

plt.scatter(df["age"], df["education-num"], s=df["incomeClassNum"])

而且似乎没有必要新列:

incomeClassNum = np.where(df["income-class"] == "<=50K", 100, 300)

plt.scatter(df["age"], df["education-num"], s=incomeClassNum )

关于python - 使用 Python (Pandas) 的新计算列的性能影响,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50229735/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com