- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是 Pandas 库的新手,需要一些帮助。我有两列这样的:
Test Result Risk Rating
Fail Low
Pass Medium
Skip High
Pass Low
Fail Medium
Pass High
Skip Low
Fail Medium
Fail High
现在,我需要从“测试结果”列中找到失败、通过和跳过的总数,并且我能够做到这一点。但是,我还需要从测试结果列中获取“失败”的总数,并从风险评级列中获取“低”的总数。同样,“中等失败”总数等等。我的最终结果应该是这样的:
Fail (Low Risk Rating) = 1
Fail (Medium Risk Rating) = 2
Fail (High Risk Rating) = 1
Pass (Low Risk Rating) = 1
Pass (Medium Risk Rating) = 1
Pass (High Risk Rating) = 1
Skip (Low Risk Rating) = 1
Skip (Medium Risk Rating) = 0
Skip (High Risk Rating) = 1
我该怎么做?任何帮助将不胜感激。
最佳答案
df = df.groupby(['Test Result', 'Risk Rating']).size().reset_index(name='counts')
print (df)
Test Result Risk Rating counts
0 Fail High 1
1 Fail Low 1
2 Fail Medium 2
3 Pass High 1
4 Pass Low 1
5 Pass Medium 1
6 Skip High 1
7 Skip Low 1
也许更好的是数据透视表 unstack
:
df = df.groupby(['Test Result', 'Risk Rating']).size().unstack(fill_value=0)
print (df)
Risk Rating High Low Medium
Test Result
Fail 1 1 2
Pass 1 1 1
Skip 1 1 0
或更慢的解决方案 crosstab
:
df = pd.crosstab(df['Test Result'], df['Risk Rating'])
print (df)
Risk Rating High Low Medium
Test Result
Fail 1 1 2
Pass 1 1 1
Skip 1 1 0
如果需要 0
缺失值,请添加 stack
:
df = df.groupby(['Test Result', 'Risk Rating'])
.size()
.unstack(fill_value=0)
.stack()
.reset_index(name='counts')
print (df)
Test Result Risk Rating counts
0 Fail High 1
1 Fail Low 1
2 Fail Medium 2
3 Pass High 1
4 Pass Low 1
5 Pass Medium 1
6 Skip High 1
7 Skip Low 1
8 Skip Medium 0
关于python - 使用 Python Pandas 进行数据分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40303957/
1.摘要 在数据可视化、统计绘图和图表生成领域,Python 被广泛使用,其中 Matplotlib 是一个极其重要的基础三方库。本博客旨在介绍 Python 及其三方库 Matplotlib
为什么要学习pandas? numpy已经可以帮助我们进行数据的处理了,那么学习pandas的目的是什么呢? numpy能够帮助我们处理的是数值型的数据,当然在数据分析中除了数
0. 数据说明 本项目所用数据集包含了一个家庭6个月的用电数据,收集于2007年1月至2007年6月。 这些数据包括有功功率、无功功率、电压、电流强度、分项计量1(厨房)、分项计量2(洗衣房
由于我现在不知道自己在做什么,所以我的措辞听起来很有趣。但是说真的,我需要学习。 我面临的问题是提出一种方法(模型)来估计软件程序的工作方式:即运行时间和最大内存使用量。我已经拥有了大量数据。此数据集
我在 PostgreSQL 中有一个表,其结构和数据如下: Question | Answer | Responses ------------------------------
numbers = LabelEncoder() State_Data['Quality'] = numbers.fit_transform(State_Data['Quality Paramet
我一直在尝试解决这个问题: 我有一组数据点,对应于一组时间值。即 values =[1,2,3,4,5,6,7,8,4] times = [0.1,0.2,0.3,0.4]... 等等,这是一个示例速
哔哔一下 雪中悍刀行兄弟们都看过了吗?感觉看了个寂寞,但又感觉还行,原谅我没看过原著小说~ 豆瓣评分5.8,说明我还是没说错它的。 当然,这并不妨碍它波播放量嘎嘎上涨,半个月25亿播放,平均一集一个亿
在 Pandas 中是否有任何可重用的数据分析代码,可以在 html 输出中给出结果。 我已经尝试过来自以下链接的命令,但没有一个输出是 html 格式。 https://kite.com/blog/
吴京近年拍的影视都是非常富有国家情怀的,大人小孩都爱看,每次都是票房新高,最新的长津湖两部曲大家都有看吗,第一步还可以,第二部水门桥也不差,截止目前已经36.72亿票房。 某眼评分9.6,某瓣评分7.
我有一个 .csv 文件,其中包含来自 eBay 拍卖的以下数据: auctionid - 拍卖的唯一标识符 bidtime - 出价的时间(以天为单位),从拍卖开始 投标人 - 投标人的 eBay
目录 1、爬虫 1.1 爬取目标 1.2 分析页面 1.3 爬虫代码 1.4 结果数据
我是 pyspark 的新手,我有这个示例数据集: Ticker_Modelo Ticker Type Period Product Geography Source Unit
我是一名优秀的程序员,十分优秀!