gpt4 book ai didi

python - pandas中大数据集的数据准备

转载 作者:太空宇宙 更新时间:2023-11-03 15:05:44 25 4
gpt4 key购买 nike

我想对我的数据进行简单的时间序列可视化,如下所示:

1;2;0;"0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 ;0;0;0;0;0;0;";"0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0; 0;0;0";"11";2016年10月13日 10:13:42
2;1;0;"0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 ;0;0;0;";"0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0";“1”;2016年10月13日10:13:42

据我所知,传感器的数据存储在这两个全 0 的字符串中(并非所有行都只包含 0)。我将如何继续创建一个数据框,其中包含每个传感器日期的列?或者什么可以让我绘制随时间变化的传感器数据(就像 25 和 20 个传感器)。

我尝试过以下内容:

data = pd.read_csv('data.csv', delimiter=';')
df = pd.concat([data[[0:3]], data[3].str.split(';', Expand=True),data[4].str.split(';', Expand=True ), 数据[[-2,-1]]], 轴=1)

但是时间太长了,我没有等到处理900,000行的结果...

最佳答案

我认为你可以使用参数引用:

import pandas as pd
import csv
from pandas.compat import StringIO

temp=u'''
1;2;0;"0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;";"0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0";"11";13.10.2016 10:13:42
2;1;0;"0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;";"0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0";"1";13.10.2016 10:13:42
'''
#after testing replace 'StringIO(temp)' to 'filename.csv'
df = pd.read_csv(StringIO(temp), sep=";", quoting=csv.QUOTE_NONE, header=None)

#temporary diplay 52 columns
with pd.option_context('display.max_columns', 52):
print (df)
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 \
0 1 2 0 "0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 2 1 0 "0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 \
0 0 0 0 0 0 0 0 0 0 " "0 0 0 0 0 0 0 0 0
1 0 0 0 0 0 0 0 0 0 " "0 0 0 0 0 0 0 0 0

38 39 40 41 42 43 44 45 46 47 48 49 50
0 0 0 0 0 0 0 0 0 0 0 0" "11" 13.10.2016 10:13:42
1 0 0 0 0 0 0 0 0 0 0 0" "1" 13.10.2016 10:13:42

然后使用strip申请 :

#data cleaning
cols = [3, 29, 48, 49]
df[cols] = df[cols].apply(lambda x: x.str.strip('"').astype(int))
#remove empty column
df = df.drop(28, axis=1)
#reset columns names
df.columns = pd.RangeIndex(len(df.columns))
with pd.option_context('display.max_columns', 52):
print (df)
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 \
0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 \
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

38 39 40 41 42 43 44 45 46 47 48 49
0 0 0 0 0 0 0 0 0 0 0 11 13.10.2016 10:13:42
1 0 0 0 0 0 0 0 0 0 0 1 13.10.2016 10:13:42

关于python - pandas中大数据集的数据准备,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44686736/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com