gpt4 book ai didi

python - 使用 Python 分析大量传感器数据

转载 作者:太空狗 更新时间:2023-10-30 00:08:57 26 4
gpt4 key购买 nike

我是一名 Python 新手,我必须分析一个大型数据集,其中包含 Excel 格式的原始传感器数据。

每个研究参与者的每个 Excel 数据文件都大于 100 MB。 excel 文件包含 5 个表,用于测量 5 个不同的生理参数。每张表包含超过 100 万行和两列(时间、生理参数)。

在 100 万行传感器数据之后,数据会自动继续显示在 Excel 文件的以下列(C 和 D)中。

每次我尝试用 Python 加载数据文件时,都需要很长时间。我想知道几件事:

1) 如何让 Python 从特定 Excel 工作表中读取数据?这需要这么长时间是正常的吗?

这是我尝试过的:

df = pd.read_excel("filepath", sheet_name="Sheetname")
print (df.head (5))

2) 用 Pandas 在 Python 中对这个大数据文件进行数据处理是否可行?我试过这个来加快这个过程:

import xlrd
work_book = xlrd.open_workbook('filepath', on_demand=True)
work_book.release_resources()

3) 后来:我想比较不同研究参与者的生理参数。由于这是研究参与者之间的时间序列分析,我如何开始使用 Python 进行此操作?

我在几天内学习了 Python 的基础知识,到目前为止我很喜欢它。我意识到我还有很长的路要走。

更新:我想我刚刚完成了时间序列分析(实际上只是趋势分析,使用了 Dickey-Fuller 检验和滚动均值可视化技术)! :D 非常感谢大家的帮助!!! pandas 中的“日期时间”模块对我来说是最难解决的,我的日期时间列仍然被识别为“对象”。这是正常的吗?不应该是 datetime64 吗?

最佳答案

IIUC,听起来您不需要不断地从不断变化的 Excel 工作表中读取数据。我建议像您一样阅读 Excel 工作表,并使用 to_pickle() 将它们存储在序列化的 pandas 数据框中:

import pandas as pd

participants = ['P1','P2','P3']
physios = ['Ph1','Ph2','Ph3','Ph4','Ph5']

for p in participants:
for ph in physios:
df = pd.read_excel(p + r'.xlsx', sheet_name=ph)
df.to_pickle(p + '_' + ph + r'.pkl')

您现在可以更高效地读取这些腌制数据框,因为您不必承担所有 Excel 开销。有一个很好的讨论here .

关于python - 使用 Python 分析大量传感器数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53053270/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com