- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
Python 新手,使用 Python 进入数据分析世界。我正在处理练习数据,其中一列有 87 个不同值,另一列有 888 个不同值,我正在考虑删除后一列。我只是不明白如何处理这些列。我是对这些列进行分组还是删除这些列。如果我组队的话我该怎么办!?真的很欣赏你的想法。 @托比·佩蒂@Vaishali
例如:
import pandas as pd
import bumpy as np
print("Count of distinct entries for car:", len(set(car_sales['car'])))<br/>
print("Distinct entries for car:", set(car_sales['car']))
Count of distinct entries for car: 87
Distinct entries for car: {'Lamborghini', 'ËUAZ', 'Daewoo', 'Jeep', 'Ferrari', 'Bentley', 'Mercury', 'MINI', 'Acura', 'Land Rover', 'Aston Martin', 'Fisker', 'Dodge', 'Fiat', 'MG', 'Samsung', 'Rolls-Royce', 'SsangYong', 'Hyundai', 'Lincoln', 'Ford', 'Moskvich-Izh', 'Samand', 'Audi', 'Dadi', 'Geely', 'Dacia', 'Daihatsu', 'Maserati', 'Volkswagen', 'Peugeot', 'Volvo', 'Nissan', 'SMA', 'Hummer', 'Porsche', 'Subaru', 'Alfa Romeo', 'Saab', 'Buick', 'Mazda', 'Mercedes-Benz', 'Lexus', 'Hafei', 'Renault', 'Suzuki', 'Chrysler', 'BYD', 'Moskvich-AZLK', 'Jaguar', 'Smart', 'ZAZ', 'Groz', 'Infiniti', 'TATA', 'Lifan', 'ZX', 'Isuzu', 'Rover', 'Honda', 'Mitsubishi', 'Cadillac', 'FAW', 'Aro', 'Wartburg', 'GMC', 'Great Wall', 'Lancia', 'Bogdan', 'Kia', 'BMW', 'JAC', 'Tesla', 'Seat', 'Barkas', 'VAZ', 'Huanghai', 'Toyota', 'Citroen', 'Other-Retro', 'Chery', 'Opel', 'Chevrolet', 'Skoda', 'UAZ', 'Changan', 'GAZ'}
最佳答案
你的问题到底是什么?
更新:经过一些澄清/猜测,我假设这个问题涉及两个问题:
groupby
限制为仅前k
组(通过选择的某种聚合)。对于初学者来说,sns
包含一些漂亮的数据集,对于此类问题非常方便,例如,下面我们将使用“mpg”,其中包含一些汽车和里程信息。
import pandas as pd
import numpy as np
import seaborn as sns
df = sns.load_dataset('mpg')
我们将把提供的名称
拆分为品牌
和型号
:
df[['brand', 'model']] = pd.DataFrame(df.name.str.split(' ', n=1).values.tolist())
df.head(3)
Out[]:
mpg cylinders displacement horsepower weight acceleration \
0 18.0 8 307.0 130.0 3504 12.0
1 15.0 8 350.0 165.0 3693 11.5
2 18.0 8 318.0 150.0 3436 11.0
model_year origin name brand model
0 70 usa chevrolet chevelle malibu chevrolet chevelle malibu
1 70 usa buick skylark 320 buick skylark 320
2 70 usa plymouth satellite plymouth satellite
稍后,我们将添加一列 n
,我们将用它来计算我们的统计数据有多少条目:
df['n'] = 1
根据最大加速度
查找前 5 个组(OP 希望使用总销售额,因此在他的情况下,我们将使用 sales.sum()
而不是acceleration.max()
,但这里我们没有销售数据)。要点是建立我们想要报告的组的索引(并将其他组重命名为“其他”)。我们将该索引(称为 idx)转换为元组列表,以便更轻松地进行子集设置。
idx = df.groupby(['brand', 'model']).acceleration.max().sort_values(ascending=False).head(5).index.to_list()
idx
Out[]:
[('peugeot', '504'),
('vw', 'pickup'),
('vw', 'dasher (diesel)'),
('volkswagen', 'type 3'),
('chevrolet', 'chevette')]
现在构建一个 bool 选择器 top10
,对于所选组来说,它的值为 True
。
top10 = df.set_index(['brand', 'model']).index.isin(idx)
重命名其他:
df.loc[~top10, 'brand'] = 'Other'
df.loc[~top10, 'model'] = ''
现在,对于非数字列,我们选择报告多数值(组内最常见的值)。
from collections import Counter
def majority(*args):
return Counter(*args).most_common(1)[0][0]
# example
majority('z a b a a c d'.split())
Out[]:
'a'
最后,我们定义一个用于各个列的聚合器字典:
# numeric: use mean
desired = {k:'mean' for k in df.columns if np.issubdtype(df[k], np.number)}
# simplified:
desired = {k:'mean' for k in ['mpg', 'horsepower', 'weight']}
# non-numeric: use majority
desired.update({'origin': majority})
# also report the size of each group
desired.update({'n': 'sum'})
现在,进行分组和聚合:
df.groupby(['brand', 'model']).agg(desired)
Out[]:
mpg horsepower weight origin n
brand model
Other 23.340052 105.540682 2984.651163 usa 387
chevrolet chevette 30.400000 63.250000 2090.250000 usa 4
peugeot 504 23.550000 83.500000 3022.250000 europe 4
volkswagen type 3 23.000000 54.000000 2254.000000 europe 1
vw dasher (diesel) 43.400000 48.000000 2335.000000 europe 1
pickup 44.000000 52.000000 2130.000000 europe 1
关于python - 处理数据帧列中大量不同值的总和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55010146/
我基本上有三个表: hunt_c_usershunt_c_collected_eggshunt_c_achievements 我目前只使用 hunt_c_users 和 hunt_c_collecte
我已经计算了不同表中计数的总和。这会执行两次,每个 performanceID 一次。现在我想得到两个总和的总和。 下面是我目前做的两个总和的代码: SELECT SUM((COUNT (Bo
我有一个对 2 个值求和的脚本。我计划添加更多值(value),但首先我需要让它发挥作用。人们告诉我给他们 NUMBER 值,所以我这样做了,但现在它甚至没有给出输出。 base = 0; $("#F
我正在尝试计算在我们的数据库中跟踪的花费总额。每个订单文档包含一个字段“total_price” 我正在尝试使用以下代码: db.orders.aggregate({ $group: {
给定 Excel 2013(或更高版本)中的 2 个命名表: tbl发票 ID InvRef Total 1 I/123 45 2 I/234
希望你们一切都好。我来这里是因为我从今天早上开始就试图解决一个问题,我再也受不了了。 这就是上下文:我有一个 excel 工作簿,其中有不同的工作表,其中包含不同国家/地区的不同商业计划。我的目标是制
我有一份报告显示客户订购的产品及其价格: CompanyA Product 7 14.99 CompanyA Product 3 45.95 CompanyA Prod
我使用此python客户端: https://github.com/ryananguiano/python-redis-timeseries 如何汇总所有匹配? ts = TimeSeries(cli
希望创建一个总和和计数公式,该公式将自动调整以适应范围内插入的新行。 例如,如果我在单元格 D55 中有公式 =SUM(D17:D54)。每次我在该范围内插入新行时,我都需要更改公式的顶部范围来解释它
所以,我需要聚合日期相同的行。 到目前为止,我的代码返回以下内容: date value source 0 2018-04-08 15:52:26.1
我有数字输入 数量约为 30 我需要将它们全部汇总到一个字段 我拥有的在下面 查看:
您好,我正在尝试根据以下数据计算过去三个月中出现不止一次的不同帐户 ID 的数量;我想要 2 作为查询结果,因为 test1@gmail.com 和 test2@gmail.com 出现超过 1 次。
我有两个带有以下字段的表: ... orders.orderID orders.orderValue 和 payments.orderID payments.payVal 在 payments.pay
我想按 image_gallery 和 video_gallery 两列的 DESC 进行排序。 SELECT b.*, c.title as category, (S
实际上我的原始数据库为 SELECT sum(data1,data2) as database_value,sum(data3,data4) as database_not_value from t
我试图获取三个分数中每一个的值并将它们相加并显示在“总计:”中。我的问题是,我不知道如何做到这一点,以便每次其中一个分数值发生变化时,相应的总分值也会随之变化。 我可以在某处调用“onchange”来
如何获得按第一个值分组的元组列表中第二个和第三个值的总和? 即: list_of_tuples = [(1, 3, 1), (1, 2, 4), (2, 1, 0), (2, 2, 0)] expec
我正在尝试将我的列表中的整数转换为列表的总和和平均值,并说明任何低于冰点 F<32 的温度。每当我尝试获取总和或平均值时,我都会收到错误提示“+: 'int' 和 'str' 不支持的操作数类型”。我
在我的 ios 项目中,我使用了两个实体 (CoreData):具有一对多关系的 Person 和 Gifts 我知道如何计算给一个人的礼物总和: NSDecimalNumber *orderSum=
我有两个表(输入和类别): CREATE TABLE categories ( iId INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT, sNam
我是一名优秀的程序员,十分优秀!