gpt4 book ai didi

php - 大数据集统计分析待发布网络

转载 作者:可可西里 更新时间:2023-10-31 23:44:21 24 4
gpt4 key购买 nike

我有一个非计算机相关的数据记录器,它从现场收集数据。这些数据存储为文本文件,我手动将这些文件集中在一起并进行组织。当前格式是每个记录器每年通过一个 csv 文件。每个文件大约有 4,000,000 行 x 7 个记录器 x 5 年 = 大量数据。一些数据被组织为 bins item_type、item_class、item_dimension_class,而其他数据则更加独特,例如 item_weight、item_color、date_collected 等等......

目前,我使用自己编写的 python/numpy/matplotlib 程序对数据进行统计分析。它运行良好,但问题是,我是唯一可以使用它的人,因为它和数据都在我的计算机上。

我想使用 postgres 数据库在网络上发布数据;但是,我需要找到或实现一个统计工具,该工具将采用大型 postgres 表,并在适当的时间范围内返回统计结果。我不熟悉用于网络的 python;但是,我在 Web 端精通 PHP,在离线端精通 Python。

应该允许用户创建自己的直方图、数据分析。例如,用户可以搜索在第 x 周和第 y 周之间以蓝色发货的所有商品,而另一个用户可以搜索全年按小时对所有商品的重量分布进行排序。

我正在考虑创建自己的统计工具并为其编制索引,或者以某种方式使流程自动化以模拟大多数查询。这似乎效率低下。

我很期待听到你的想法

谢谢

最佳答案

我认为如果用户数量不是太大,您可以充分利用您当前的组合(python/numpy/matplotlib)。我做了一些类似的工作,我的数据大小超过 10g。数据存储在几个 sqlite 文件中,我使用 numpy 分析数据,PIL/matplotlib 生成图表文件(png,gif),cherrypy 作为网络服务器,mako 作为模板语言。

如果你需要更多的服务器/客户端数据库,那么你可以迁移到 postgresql,但是如果你使用 python web 框架,比如 cherrypy,你仍然可以充分利用你当前的程序。

关于php - 大数据集统计分析待发布网络,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2667537/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com