- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有一个 CSV 文件,其中包含多天一天中每一分钟的行。它是由有时会遗漏几行的数据采集系统生成的。
数据看起来像这样 - 一个日期时间字段后跟一些整数
"2017-01-07 03:00:02","7","3","2","13","0"
"2017-01-07 03:01:02","7","3","2","13","0"
"2017-01-07 03:02:02","7","3","2","12","0"
"2017-01-07 03:07:02","7","3","2","12","0"
"2017-01-07 03:08:02","6","3","2","12","1"
"2017-01-07 03:09:02","7","3","2","12","0"
"2017-01-07 03:10:02","6","3","2","11","1"
上述(真实数据)示例中缺少行。由于样本之间的数据变化不大,我只想将最后一个有效数据复制到缺失的行中。我遇到的问题是检测缺少哪些行。
我正在使用我拼凑的 python 程序处理 CSV(我对 python 很陌生)。这可以处理我拥有的数据。
import csv
import datetime
with open("minutedata.csv", 'rb') as f:
reader = csv.reader(f, delimiter=',')
for row in reader:
date = datetime.datetime.strptime (row [0],"%Y-%m-%d %H:%M:%S")
v1 = int(row[1])
v2 = int(row[2])
v3 = int(row[3])
v4 = int(row[4])
v5 = int(row[5])
...(process values)...
...(save data)...
我不确定如何检查当前行是按顺序排列的下一行,还是在一些缺失的行之后。
编辑添加:
感谢 jeremycg 提供的指针,我现在正在尝试使用 Pandas。
我在 CSV 中添加了一个标题行,现在它看起来像:
time,v1,v2,v3,v4,v5
"2017-01-07 03:00:02","7","3","2","13","0"
"2017-01-07 03:01:02","7","3","2","13","0"
"2017-01-07 03:02:02","7","3","2","12","0"
"2017-01-07 03:07:02","7","3","2","12","0"
"2017-01-07 03:08:02","6","3","2","12","1"
"2017-01-07 03:09:02","7","3","2","12","0"
"2017-01-07 03:10:02","6","3","2","11","1"
现在的处理代码是:
import pandas as pd
import io
z = pd.read_csv('minutedata.csv')
z['time'] = pd.to_datetime(z['time'])
z.set_index('time').reindex(pd.date_range(min(z['time']), max(z['time']),freq="1min")).ffill()
for row in z:
date = datetime.datetime.strptime (row [0],"%Y-%m-%d %H:%M:%S")
v1 = int(row[1])
v2 = int(row[2])
v3 = int(row[3])
v4 = int(row[4])
v5 = int(row[5])
...(process values)...
...(save data)...
但是这个错误:
Traceback (most recent call last):
File "process_day.py", line 14, in <module>
z.set_index('time').reindex(pd.date_range(min(z['time']), max(z['time']), freq="1min")).ffill()
File "/usr/local/lib/python2.7/site-packages/pandas/core/frame.py", line 2821, in reindex
**kwargs)
File "/usr/local/lib/python2.7/site-packages/pandas/core/generic.py", line 2259, in reindex fill_value, copy).__finalize__(self)
File "/usr/local/lib/python2.7/site-packages/pandas/core/frame.py", line 2767, in _reindex_axes
fill_value, limit, tolerance)
File "/usr/local/lib/python2.7/site-packages/pandas/core/frame.py", line 2778, in _reindex_index allow_dups=False)
File "/usr/local/lib/python2.7/site-packages/pandas/core/generic.py", line 2371, in _reindex_with_indexers copy=copy)
File "/usr/local/lib/python2.7/site-packages/pandas/core/internals.py", line 3839, in reindex_indexer self.axes[axis]._can_reindex(indexer)
File "/usr/local/lib/python2.7/site-packages/pandas/indexes/base.py", line 2494, in _can_reindex raise ValueError("cannot reindex from a duplicate axis")
ValueError: cannot reindex from a duplicate axis
我不知道它现在声称已损坏的内容。
请参阅下面的评论以了解此修复程序。
现在的工作代码是:
import pandas as pd
import datetime
z = pd.read_csv('minutedata1.csv')
z = z[~z.time.duplicated()]
z['time'] = pd.to_datetime(z['time'])
z.set_index('time').reindex(pd.date_range(min(z['time']), max(z['time']),freq="1min")).ffill()
for index,row in z.iterrows():
date = datetime.datetime.strptime (row [0],"%Y-%m-%d %H:%M:%S")
v1 = int(row[1])
v2 = int(row[2])
v3 = int(row[3])
v4 = int(row[4])
v5 = int(row[5])
...(process values)...
...(save data)...
衷心感谢所有提供帮助的人。 - 大卫
最佳答案
你可能应该为此使用 pandas,因为它是为这类东西而生的。
首先阅读 csv:
import pandas as pd
import io
x = '''
time,a,b,c,d,e
"2017-01-07 03:00:02","7","3","2","13","0"
"2017-01-07 03:01:02","7","3","2","13","0"
"2017-01-07 03:02:02","7","3","2","12","0"
"2017-01-07 03:07:02","7","3","2","12","0"
"2017-01-07 03:08:02","6","3","2","12","1"
"2017-01-07 03:09:02","7","3","2","12","0"
"2017-01-07 03:10:02","6","3","2","11","1"''' #your data, with added headers
z = pd.read_csv(io.StringIO(x)) #you can use your file name here
现在 z 是一个 pandas 数据框:
z.head()
time a b c d e
0 2017-01-07 03:00:02 7 3 2 13 0
1 2017-01-07 03:01:02 7 3 2 13 0
2 2017-01-07 03:02:02 7 3 2 12 0
3 2017-01-07 03:07:02 7 3 2 12 0
4 2017-01-07 03:08:02 6 3 2 12 1
我们想要:将“时间”列转换为 pd.datetime:
z['time'] = pd.to_datetime(z['time'])
将数据帧的“索引”设置为时间,然后在我们的范围内重新索引:
z = z.set_index('time').reindex(pd.date_range(min(z['time']), max(z['time']), freq="1min"))
z
a b c d e
2017-01-07 03:00:02 7.0 3.0 2.0 13.0 0.0
2017-01-07 03:01:02 7.0 3.0 2.0 13.0 0.0
2017-01-07 03:02:02 7.0 3.0 2.0 12.0 0.0
2017-01-07 03:03:02 NaN NaN NaN NaN NaN
2017-01-07 03:04:02 NaN NaN NaN NaN NaN
2017-01-07 03:05:02 NaN NaN NaN NaN NaN
2017-01-07 03:06:02 NaN NaN NaN NaN NaN
2017-01-07 03:07:02 7.0 3.0 2.0 12.0 0.0
2017-01-07 03:08:02 6.0 3.0 2.0 12.0 1.0
2017-01-07 03:09:02 7.0 3.0 2.0 12.0 0.0
2017-01-07 03:10:02 6.0 3.0 2.0 11.0 1.0
然后使用.ffill()从之前的值开始填充:
z.ffill()
a b c d e
2017-01-07 03:00:02 7.0 3.0 2.0 13.0 0.0
2017-01-07 03:01:02 7.0 3.0 2.0 13.0 0.0
2017-01-07 03:02:02 7.0 3.0 2.0 12.0 0.0
2017-01-07 03:03:02 7.0 3.0 2.0 12.0 0.0
2017-01-07 03:04:02 7.0 3.0 2.0 12.0 0.0
2017-01-07 03:05:02 7.0 3.0 2.0 12.0 0.0
2017-01-07 03:06:02 7.0 3.0 2.0 12.0 0.0
2017-01-07 03:07:02 7.0 3.0 2.0 12.0 0.0
2017-01-07 03:08:02 6.0 3.0 2.0 12.0 1.0
2017-01-07 03:09:02 7.0 3.0 2.0 12.0 0.0
2017-01-07 03:10:02 6.0 3.0 2.0 11.0 1.0
或者,一起:
z = pd.read_csv(io.StringIO(x))
z['time'] = pd.to_datetime(z['time'])
z.set_index('time').reindex(pd.date_range(min(z['time']), max(z['time']), freq="1min")).ffill()
关于python - 修补 Python 中 CSV 文件中缺失的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41622526/
我在修补自定义类时遇到问题'__init_subclass__ .我认为这与我将修补函数绑定(bind)到类的方式有关: def _patched_initsubclass(cls, **kwargs
我有基于 ARM 的设备,并且板载 Linux。由于某些原因,刷新自定义内核非常困难(uBoot 无法通过 tftp 或其他方式加载内核) 我需要测试我的自定义内核。所以,想法是-替换内存中的内核。您
今天我在远程调试一个客户的问题,我没有构建一个全新的安装并将其发送给他,而是编译了dll,确保版本信息与他安装的版本信息相同,并替换了旧的dll使用我刚刚在他的机器上构建的一个(为了以防万一,备份了另
将简单补丁应用于 Rails 应用程序中的 Ruby gem 的最佳方法是什么? 是否可以保持原始 gem 代码不变? 最佳答案 是的,这是可能的。只需打开类,为有问题的方法取别名,并提供您自己的实现
我正在尝试修补 __new__一个类的方法,它没有按我预期的那样工作。 from contextlib import contextmanager class A: def __init__(
我想将 MediaWiki 从 1.23.1 打补丁到最新的 1.23.4(在 Ubuntu 12.04.5 上)我计划使用补丁:https://www.mediawiki.org/wiki/Manu
假设我修补并模拟了某些实现读取多个文件的函数 foo()。所以我们有多个 open() 调用: def foo(): a=open("stuff.txt") b=open("anoth
我开始使用pathlib,并且在很大程度上非常喜欢使用它。我遇到的问题是由于方法而不是函数的性质而对其进行测试。 def test_correct_dir_was_made(self): wi
我有一个 NSOperation,Authenticate,它通过服务器进行身份验证。 我有另一个操作,类型为 AFJSONRequestOperation 的 fetchImage,它依赖于 Aut
我有简单的 Angular FormBuilder 表单(在 Ionic 2 应用程序中),包含 3 个字段: constructor(public navCtrl: NavController, p
我们在 Glassfish 3.1.2.2 中遇到了一个错误(具体来说,在 Metro 模块中的 WSEndpointImpl 类中),该错误已修复,但有望在 Glassfish 4.0 或 3.1
我有很好的基础测试类,它从 django 测试用例和另一个类扩展而来: class MyTestCase(TestCase, TestFreshProvisionedEachTest): 现在一切正
我有两个 CSV 文件,即 test1.csv 和 test2.csv,由自定义分隔符管道符号 (|) 分隔。我通过 diff 命令获取他们的更改,如下所示 diff test2.csv test1.
我正在用 C 编写程序,并且使用内联汇编。在内联汇编代码中有一些地址,我想在运行时修补它们。 代码的快速示例是这样的: void __declspec(naked) inline(void) {
我有兴趣修补一个文件中由另一种方法调用的方法。示例-original.py 文件包含- def A(): a = 10 b = 5 return a*b; def B(): c
我正在尝试创建一个进程来修补我们当前的 Java 应用程序,以便用户只需要下载差异而不是整个应用程序。我认为我不需要像二进制 diff 那样低级别,因为大多数 jar 文件都很小,所以替换整个 jar
假设我已经将一个 PE 可执行文件加载到内存中并使其适合 dos、nt header 结构,现在我想找出它的 .text/code segement actual(不是 VA)offset+size
我想修补一些使用来自外部模块的对象的代码。 这个对象的一个方法被到处调用,我需要在所有这些调用中设置一个新的默认 kwarg。 与其添加这么多重复的代码,我认为更改对象方法会更好。最干净的方法
我刚刚创建了用户 * 故事表和模型,定义了如下所示的关系 在用户模型中 public function stories() { return $this->hasMany(\A
如果您有虚拟机,则需要在每个补丁星期二应用补丁,并确保操作系统是最新的以防止安全问题。 如果您获得 PAAS Azure WebApp,Microsoft 会负责修补底层操作系统吗? 如果是这样,发生
我是一名优秀的程序员,十分优秀!