- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个很长的 Excel 文件,其中包含一年中 60 分钟的降雨量。我希望读入 excel 文件,聚合每日总降雨量的降雨量值(group.by
效果很好),然后将这些值放入一个新的数据框中,其中一年中的每一天都是如果当天没有下雨,则使用 0
单独一行;如果下雨,则使用每日总降雨量的 Value
。我已经概述了我要采取的步骤以及我对下面代码的尝试。如果我尝试编写的代码很糟糕,我愿意接受其他建议。 Excel 文件的第一行如下所示:
60 Minute Counts, []
Time Stamp Latitude Longitude Value ()
Dec 27 2015 01:30:00 AM 0.297 36.900 0.25
Dec 25 2015 01:00:00 PM 0.297 36.900 0.51
Dec 25 2015 10:30:00 AM 0.297 36.900 0.25
Dec 25 2015 07:30:00 AM 0.297 36.900 0.25
Dec 25 2015 05:00:00 AM 0.297 36.900 0.25
Dec 25 2015 04:30:00 AM 0.297 36.900 0.25
Dec 17 2015 02:30:00 AM 0.297 36.900 0.25
Dec 16 2015 02:30:00 PM 0.297 36.900 0.25
Dec 16 2015 02:00:00 PM 0.297 36.900 0.76
Dec 16 2015 12:30:00 PM 0.297 36.900 0.25
Dec 16 2015 12:00:00 PM 0.297 36.900 0.76
Dec 16 2015 11:30:00 AM 0.297 36.900 5.08
Dec 16 2015 11:00:00 AM 0.297 36.900 0.51
Dec 15 2015 03:30:00 PM 0.297 36.900 0.25
然后我需要读取我已经使用过的 Excel 文件:
from openpyxl import load_workbook
wb = load_workbook(filename = 'filename.xlsx')
sheet_ranges = wb['60 minute counts']
但我不确定如何在第 3 行以上读取实际值。
为 Time Stamp
和 Value ()
列定义数据帧 df0
后,我需要转换 Time Stamp
转换为 YYYY-MM-DD 等格式,可以使用以下代码:
import pandas as pd
df0["time"] = pd.to_datetime(df0["time"])
df0["day"] = df0['time'].map(lambda x: x.day)
df0["month"] = df0['time'].map(lambda x: x.month)
df0["year"] = df0['time'].map(lambda x: x.year)
然后我需要将 60 分钟计数的降雨量合并为每日总降雨量,方法是:
df1 = df0.groupby(['Value ()', 'day', 'month', 'year'], as_index=False).sum()
最终我需要制作一个数据框,其中包含一年中每一天的行,然后是每日总降雨量。它看起来像这样:
Date Value
2015-12-31 0
2015-12-30 0
2015-12-29 0
2015-12-28 0
2015-12-27 0.25
2015-12-26 0
2015-12-25 1.52
2015-12-24 0
2015-12-23 0
2015-12-22 0
2015-12-21 0
2015-12-20 0
2015-12-19 0
2015-12-18 0
2015-12-17 0.25
2015-12-16 7.62
...等等
请告诉我发布整个文件是否有帮助,我可以添加一个保管箱链接。
最佳答案
看来你需要 resample
:
df0.index = pd.to_datetime(df0["Time Stamp"])
df1 = df0.resample('D')['Value ()'].sum().fillna(0).reset_index()
print (df1)
Time Stamp Value ()
0 2015-12-15 0.25
1 2015-12-16 7.61
2 2015-12-17 0.25
3 2015-12-18 0.00
4 2015-12-19 0.00
5 2015-12-20 0.00
6 2015-12-21 0.00
7 2015-12-22 0.00
8 2015-12-23 0.00
9 2015-12-24 0.00
10 2015-12-25 1.51
11 2015-12-26 0.00
12 2015-12-27 0.25
或 groupby
为 Grouper
:
df0.index = pd.to_datetime(df0["Time Stamp"])
df1 = df0.groupby(pd.Grouper(freq='D'))['Value ()'].sum().fillna(0).reset_index()
print (df1)
Time Stamp Value ()
0 2015-12-15 0.25
1 2015-12-16 7.61
2 2015-12-17 0.25
3 2015-12-18 0.00
4 2015-12-19 0.00
5 2015-12-20 0.00
6 2015-12-21 0.00
7 2015-12-22 0.00
8 2015-12-23 0.00
9 2015-12-24 0.00
10 2015-12-25 1.51
11 2015-12-26 0.00
12 2015-12-27 0.25
如有必要,请添加 sort_index
:
df1 = df0.resample('D')['Value ()'].sum().sort_index(ascending=False).fillna(0).reset_index()
print (df1)
Time Stamp Value ()
0 2015-12-27 0.25
1 2015-12-26 0.00
2 2015-12-25 1.51
3 2015-12-24 0.00
4 2015-12-23 0.00
5 2015-12-22 0.00
6 2015-12-21 0.00
7 2015-12-20 0.00
8 2015-12-19 0.00
9 2015-12-18 0.00
10 2015-12-17 0.25
11 2015-12-16 7.61
12 2015-12-15 0.25
df1 = df0.groupby(pd.Grouper(freq='D'))['Value ()'].sum()
.sort_index(ascending=False).fillna(0).reset_index()
print (df1)
Time Stamp Value ()
0 2015-12-27 0.25
1 2015-12-26 0.00
2 2015-12-25 1.51
3 2015-12-24 0.00
4 2015-12-23 0.00
5 2015-12-22 0.00
6 2015-12-21 0.00
7 2015-12-20 0.00
8 2015-12-19 0.00
9 2015-12-18 0.00
10 2015-12-17 0.25
11 2015-12-16 7.61
12 2015-12-15 0.25
关于python - 使用groupby重新格式化excel数据并在python中的数据框中添加空行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42805367/
我正在从事的项目需要使用 toString 方法打印银行帐户余额。我不允许向当前程序添加任何方法,但我需要将 myBalance 变量格式化为 double 型,该变量保留两位小数而不是一位。在这个特
我喜欢 Visual Studio (2008) 格式化 C# 代码的方式;不幸的是,在编写 C++ 代码时,它的行为方式似乎有所不同。 比如我这样写代码的时候: class Test { publi
Scanner scan = new Scanner(System.in); System.out.println("Enter three positive integers seperated b
在 aspose(使用 C#)中用于格式化数字的正确样式属性是什么。我想做两件事: 1) 将五位数字格式化为邮政编码。(我不太确定使用哪个 Style 属性来获取自定义 excel 邮政编码格式) 2
我希望用户输入从 00 到 23 和从 00 到 59 的 Local.Time 的小时和分钟,我将其扫描为一个 int。它有效,但对于从 00 到 09 的值,int 忽略 0,然后将其放置为 0,
大家好, 请查看上面的图片,我有两张 table 。在下面代码的第一个表中,我得到了这种格式。 但我想像 Table2 那样格式化,每个合并单元格中的行数是动态的,而且不一样。 有没有办法像table
我在一个 laravel 网站工作,我只是想知道是否有办法为用户格式化 created_at 值,因为现在它类似于以下内容: 2017-09-20 13:41 但我更愿意将其格式化为易于阅读的格式,例
我正在尝试在 JTextPane 中进行一些基本的格式化。为此,我决定使用 html(HTMLDocument 和 HTMLEditorKit)。 这里是按钮的操作监听器代码,应使所选文本变为粗体 b
是否有规则或插件会导致 es-lint 错误或警告,如果范围内的声明没有像下面那样间隔,赋值运算符的对齐方式相同? var a = 'a'; var bb = 'b'; var ccc = 'd
我正在尝试重新格式化 LinkedHashMap 的输出以排除逗号和大括号。 这是我的看跌期权: token.put("[Server.Protocol]", url.getProtocol() +
我有一个程序,可以从文本文件中读取大量文本,然后根据文本内容随机化内容以显示为短篇故事。该程序可以运行,但最后一部分(我显示的 Material )非常笨重且效率不高,我想知道是否有人对如何更有效地获
我正在尝试将 VIM 作为我的 ruby/rails 编辑器。太胖了,我对它的功能印象深刻 并且我能够安装以下插件以提供更好的 IDE 体验 自动配对 Better-snipmate-snippe
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我有两个 jQuery 函数。我想先运行下面的第一个,然后在该函数完成后运行另一个。通常我会在代码的第一部分添加一个函数,但不确定如何使用这个 block 来做到这一点,或者它是否是正确的方法。 简而
在 Python 2.7 中,我有一个包含数字 1-25 字符串的列表(例如)。打印它们时,我希望列表打印 5 行,每行 5 个数字。 理想情况下: >>> print(myList) ['1', '
我有以下功能来打印借阅者已取出的书籍列表。 void searchBorrowerLoans(int a) { int i; for (i = 1
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 5 年前。 Improv
我正在尝试实现一个用作 ListView header 的 TextView。我想对其进行格式化,以便我基本上有一个以第一行为中心的标题,然后是以下几行的附加信息。如何格式化文本/字符串以创建这种格式
我尝试格式化数字字段 select to_char(12315.83453, 'FM999999999999D9999') 在这种情况下一切正常。结果是 12315.8345 但是如果值在0到1之间
我有一个带有 BigDecimal 字段的类。我把这个对象放到 JSP(Spring MVC)中。而且我需要显示十进制不带零的 BigDecimal 字段(20.00 就像 20),这就是为什么我的
我是一名优秀的程序员,十分优秀!