gpt4 book ai didi

python - 什么是存储和处理 200,000 多个时间序列的良好数据结构和工具?

转载 作者:行者123 更新时间:2023-11-28 19:22:10 24 4
gpt4 key购买 nike

编辑:更好地描述数据。

我有一个大型数据集,目前有 200,000 多个数据点,但很快就会更大。数据是一篇文章(网页)自发表以来每天收到的下载次数。我对日历日不感兴趣,但我对自发布以来的天数感兴趣。

所以目前数据看起来像这样:

id,country,subject,publication_date,day1,day2,day3,day4,day5....day1000
1,canada,science,2008-01-01,0,3,12,5,33,45,66,3,3.....
2,usa,english,2014-03-15,1,3,14

其中每个数字代表一天的下载次数,每列代表发布后的一天。因此,每一行都有不同数量的列,因为有些文章比其他文章存在时间更长。

对于允许以下内容的数据,什么是好的数据结构:

  • 按国家或主题轻松过滤
  • 按“X 天内至少 X 次下载”轻松过滤
  • 轻松提取(用于回归或聚类)下载数据

我熟悉(尽管不完全)Python Pandas,过去我曾用它来处理一些数据。它似乎很适合这份工作,尤其是当我将数据存储为 TimeSeries 时。我将我的数据处理到带有 TimeSeries 索引的单篇文章的 DF,如下所示。

注意:这是一个用于单个 ID 的时间序列,我需要一个用于 200,000 多篇文章的结构。

date  downloads
2000-01-01 3
2000-01-02 2
2000-02-08 1
2000-02-09 1
2000-02-10 2

但不确定从那里去哪里。我想一直重新居中,从一个固定的日期开始,这样数据集就可以合并了。但是我最终会得到每个数据点的一列(即 200,000 多列)和一个单独的 DataFrame 来存储 ID 及其特征(主题/国家/地区)。

这有意义吗?这么多列有问题吗?有没有更好的办法?

编辑: 首选是继续使用 python,但不要拘泥于 Pandas。如果它必须是另一种语言/工具,没关系。我会学!

最佳答案

感谢@jeff 和@Joe Kington。我最终选择了一个由 HDF5 存储支持的 MultiIndex'ed 系列。它运作良好。

关于python - 什么是存储和处理 200,000 多个时间序列的良好数据结构和工具?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22514161/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com