gpt4 book ai didi

python - 当语法(即 PURPLE 或 PURPAL)错误时,如何对 csv 文件中的颜色(蓝色、绿色、紫色、红色)进行分组?

转载 作者:行者123 更新时间:2023-11-30 22:38:49 25 4
gpt4 key购买 nike

当语法(即大小写、拼写 - PURPLE 或 PURPAL)在某些情况下错误时,如何使用 Python 对 csv 文件(50000 行,示例如下)中的颜色(蓝色、绿色、紫色、红色)进行分组?感谢您提供的任何帮助

Blue      5642
Purpal 5640
red 5610
BLUE 5583
Red 5541
green 5523
Purple 5503
Green 5491
RED 5467
......

最佳答案

您将需要清理您的数据。显然,无论您的数据处于什么情况,这都是唯一的,但如果您试图识别拼写错误的颜色名称,那么也许可以过滤数据帧以显示除蓝色、绿色、紫色或红色之外的所有内容。

您可以执行以下操作来识别不合适的地方,然后找出解决方法。

df.Color = df.Color.str.lower()
colors = ['blue', 'red', 'purple', 'green']
misspellings = df.Color[~df.Color.isin(colors)].values
print(misspellings)
['purpal']

从那里您可以单独修复每个条目或编写一些内容来智能地修复它们。这取决于你,但一旦你完成了,你就可以像平常一样分组。要修复“purpal”的一个或多个条目,您可以执行以下操作:

df.loc[df.Color == 'purpal', 'Color'] = 'purple' 

关于python - 当语法(即 PURPLE 或 PURPAL)错误时,如何对 csv 文件中的颜色(蓝色、绿色、紫色、红色)进行分组?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43412730/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com