- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我写了一个函数来解析 this wind file (wind.txt ~1MB)进入 pandas 数据帧,但由于文件格式的肮脏,它非常慢(根据我的同事的说法)。上面链接的文件只是较大文件的子集,该文件包含 1900 年至 2016 年每小时的风数据。以下是该文件的片段:
2000 1 1 CCB Wdir 5 11 15 14 14 14 14 16 15 15 15 15 13 12 16 16 15 15 15 15 15 14 14 14
2000 1 1 CCB Wspd 10 8 6 8 7 7 8 8 6 8 9 7 16 16 7 10 12 14 15 17 18 22 22 20
2000 1 2 CCB Wdir 14 14 14 14 14 16 16 16 16 15 15 16 17 17 16 17 16 16 16 15 15 15 15 16
2000 1 2 CCB Wspd 17 16 15 17 15 15 16 14 14 15 17 16 15 13 14 15 15 21 20 20 18 25 23 21
2000 1 3 CCB Wdir 15 15 15 16 15 16 16 16 16 16 16 20 18 22 28 27 26 31 32 32 33 33 35 33
2000 1 3 CCB Wspd 20 22 22 18 20 21 21 22 18 16 14 13 15 6 3 7 8 8 13 13 15 10 6 7
列是年、月、日、地点名称、变量名称、00 小时、01 小时、02 小时、...、23 小时。 风向和风速显示在交替线上每天的测量值和单日 24 小时的测量值都在同一条线上。
我正在做的是将这个文件的内容读入一个带有日期时间索引(每小时频率)和两列(wdir 和 wspd)的 pandas 数据帧。我的解析器如下:
import pandas as pd
from datetime import timedelta
fil = 'D:\\wind.txt'
lines = open(fil, 'r').readlines()
nl = len(lines)
wdir = lines[0:nl:2]
wspd = lines[1:nl:2]
first = wdir[0].split()
start = pd.datetime(int(first[0]), int(first[1]), int(first[2]), 0)
last = wdir[-1].split()
end = pd.datetime(int(last[0]), int(last[1]), int(last[2]), 23)
drange = pd.date_range(start, end, freq='H')
wind = pd.DataFrame(pd.np.nan, index=drange, columns=['wdir','wspd'])
idate = start
for d in range(nl/2):
dirStr = wdir[d].split()
spdStr = wspd[d].split()
for h in range(24):
if dirStr[h+5] != '-9' and spdStr[h+5] != '-9':
wind.wdir[idate] = int(dirStr[h+5]) * 10
wind.wspd[idate] = int(spdStr[h+5])
idate += timedelta(hours=1)
if idate.month == 1 and idate.day == 1 and idate.hour == 1:
print idate
现在解析一年大约需要 2.5 秒,我认为这相当不错,但是我的同事认为应该可以在几秒钟内解析完整的数据文件。他说得对吗?我是否在浪费宝贵的时间来编写缓慢、笨重的解析器?
我正在研究一个大型的遗留 FORTRAN77 模型,并且我有几十个类似的解析器用于各种输入/输出文件,以便能够在 python 中分析/创建/修改它们。如果我可以在每个方面节省时间,我想知道如何做到。非常感谢!
最佳答案
我会使用pd.read_fwf(...)或pd.read_csv(..., delim_whitespace=True)方法 - 它旨在解析此类文件...
演示:
cols = ['year', 'month', 'day', 'site', 'var'] + ['{:02d}'.format(i) for i in range(24)]
fn = r'C:\Temp\.data\43763897.txt'
df = pd.read_csv(fn, names=cols, delim_whitespace=True, na_values=['-9'])
x = pd.melt(df,
id_vars=['year','month','day','site','var'],
value_vars=df.columns[5:].tolist(),
var_name='hour')
x['date'] = pd.to_datetime(x[['year','month','day','hour']], errors='coerce')
x = (x.drop(['year','month','day','hour'], 1)
.pivot_table(index=['date','site'], columns='var', values='value')
.reset_index())
结果:
In [12]: x
Out[12]:
var date site Wdir Wspd
0 2000-01-01 00:00:00 CCB 5.0 10.0
1 2000-01-01 01:00:00 CCB 11.0 8.0
2 2000-01-01 02:00:00 CCB 15.0 6.0
3 2000-01-01 03:00:00 CCB 14.0 8.0
4 2000-01-01 04:00:00 CCB 14.0 7.0
5 2000-01-01 05:00:00 CCB 14.0 7.0
6 2000-01-01 06:00:00 CCB 14.0 8.0
7 2000-01-01 07:00:00 CCB 16.0 8.0
8 2000-01-01 08:00:00 CCB 15.0 6.0
9 2000-01-01 09:00:00 CCB 15.0 8.0
... ... ... ... ...
149030 2016-12-31 14:00:00 CCB 0.0 0.0
149031 2016-12-31 15:00:00 CCB 1.0 5.0
149032 2016-12-31 16:00:00 CCB 33.0 8.0
149033 2016-12-31 17:00:00 CCB 34.0 9.0
149034 2016-12-31 18:00:00 CCB 35.0 7.0
149035 2016-12-31 19:00:00 CCB 0.0 0.0
149036 2016-12-31 20:00:00 CCB 12.0 8.0
149037 2016-12-31 21:00:00 CCB 13.0 7.0
149038 2016-12-31 22:00:00 CCB 15.0 7.0
149039 2016-12-31 23:00:00 CCB 17.0 7.0
[149040 rows x 4 columns]
使用 wind.txt
文件计时:
In [10]: %%timeit
...: cols = ['year', 'month', 'day', 'site', 'var'] + ['{:02d}'.format(i) for i in range(24)]
...: fn = r'D:\download\wind.txt'
...: df = pd.read_csv(fn, names=cols, delim_whitespace=True, na_values=['-9'])
...: x = pd.melt(df,
...: id_vars=['year','month','day','site','var'],
...: value_vars=df.columns[5:].tolist(),
...: var_name='hour')
...: x['date'] = pd.to_datetime(x[['year','month','day','hour']], errors='coerce')
...: x = (x.drop(['year','month','day','hour'], 1)
...: .pivot_table(index=['date','site'], columns='var', values='value')
...: .reset_index())
...:
1 loop, best of 3: 812 ms per loop
关于python - 将固定宽度、交替行文件缓慢解析为 pandas 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43763897/
我正在尝试实现 3 列固定-流体-固定布局。此外,布局的高度必须占据整个屏幕,使其看起来像从上到下的 3 个实心列。 总结: Left-column: fixed-width Center-col
我在网上搜索过,似乎找不到一个干净、简单、所有浏览器都友好的 3 列布局。 我希望有 3 列布局,左列固定为 200px,右列固定为 200px,中间列为剩余宽度,但最小宽度为 600px。所以整体最
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this q
我正在使用一些音频指纹技术来标记长录音中的歌曲。例如,在广播节目中的记录。指纹机制工作正常,但我在归一化(或下采样)方面遇到问题。 在这里您可以看到两首相同的歌曲,但波形不同。我知道我应该进行一些直流
为什么使用cout调用setprecision和fixed以及其他iomanip函数不像例如name.find('')plz这样的字符串函数 最佳答案 它们允许您以以下方式链接操作: cout <<
我正在尝试创建一个侧边栏,当用户向下滚动页面时,该侧边栏会跟随用户,并且我设法使用以下代码实现了效果: 标记 Javas
我正在尝试设置一些性能分析以及影响缓冲策略的运行时决策。我的应用程序收到一个指向由库(CUDA 或 OpenCL)分配的缓冲区的指针。 如何测试内存区域是否被页面锁定? 据我所知,POSIX 给了我们
我正在用 C# 编写一个 B+ 树实现,我为我的应用程序选择的树实现有一个非常特定的结构,它是缓存敏感的。为了实现这些属性,它对树节点有严格的布局策略。 我想要的只是使用 C# 的 fixed 来表达
我试图通过将 fragment 注入(inject)容器来在每个屏幕的底部放置一个广告 View 。通过使用 LinearLayout,我可以将 adview 置于操作栏下方的顶部。我已经尝试了 Re
我正在尝试创建一个导航稍微复杂的网站。我已经让导航看起来像我想要的初始加载,但现在我试图让它粘性导航到滚动顶部。我已经能够在导航栏到达顶部时创建一个类,但无法使其粘滞。每次我添加一个位置时,它都会跳回
首先,我正在寻找一个纯 CSS 解决方案。我可以使用 JavaScript 非常轻松地做到这一点,所以不要费心给我提示如何在 JS 中做到这一点。 我有一个包含 3 个容器的网页。其中 2 个是固定的
我猜这里有一种 super 特例。 我正在处理许多包含。现在我正在一个包含的内容文件中编码。我需要一个灯箱,它有一个 20% 的黑色背景覆盖整个页面,包括本身固定的标题,并在先前的 PHP 文件中设置
我正在尝试制作一个包含两个“固定”侧边栏图像和一个“固定”标题图像的页面。由于标题是固定的(距顶部 0 到 10%)。我不希望页眉图像与页面上的任何文本重叠。我尝试将段落标记定位为“相对”,并将其设置
我遇到了一个(水平)居中固定位置元素的解决方案,如下所示: element { width: 200px; position: fixed; left: 0; righ
我试图让我的网站主体具有固定的高度(我想!)。 无论如何,站点正文只是白色,边框大小为 1。基本上,正文的大小取决于其中的内容,例如,随着添加更多内容,它会自动调整大小。 我想要的是垂直滚动条,这样主
是否可以在 css 中创建 master-detail-states 布局? 我需要 3 个占位符: +---------------+-------+ | A | B
我的问题是,我是否必须在每个 Get/Post 请求之前单独请求检查 SSL Pinning OkHttpClient client = new OkHttpClient.Builder().cert
假设我有一个具有 N 个节点的常量(一旦构建就不会改变)平衡树,每个内部节点都有 p 个子节点。显然,访问节点的最坏情况是 logp(N)。但是访问 r 个节点的摊销成本呢?如果我们按升序访问它们(有
我知道会话固定是用php破解网站的方法。 会话固定是一种允许攻击者劫持有效用户会话的攻击 session fixation 但我不知道这可以防止我的项目中出现此问题。 是描述解决方案的方式或样本。 最
我在 jquery 砖石布局内有一个导航元素,我想将其修复到特定位置,比如右上角。是否可以这样做,以便所有其他元素都位于它周围? 诸如前置导航之类的东西.. 这是我的代码:http://jsfiddl
我是一名优秀的程序员,十分优秀!