python - 使用matplotlib的Mongodb数据统计可视化-6ren

python - 使用matplotlib的Mongodb数据统计可视化

转载作者：行者123 更新时间：2023-12-01 06:05:00

24

4

我想使用matplotlib从mongodb中的数据中获取可视化统计信息，但我现在使用的方式真的很奇怪。

我查询了 mongodb 30 次来获取日常数据，这已经很慢而且很脏，特别是当我从其他地方而不是服务器上获取结果时。我想知道是否有更好/干净的方法来获取每小时、每天、每月和每年的统计数据？

这是我现在使用的一些代码(获取每日统计数据):

from datetime import datetime, date, time, timedelta
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
from my_conn import my_mongodb

t1 = []
t2 = []
today = datetime.combine(date.today(), time())
with my_mongodb() as m:
    for i in range(30):
        day = today - timedelta(days = i)
        t1 = [m.data.find({"time": {"$gte": day, "$lt": day + timedelta(days = 1)}}).count()] + t1
        t2 = [m.data.find({"deleted": 0, "time": {"$gte": day, "$lt": day + timedelta(days = 1)}}).count()] + t2

x = range(30)
N = len(x)

def format_date(x, pos=None):
    day = today - timedelta(days = (N - x - 1))
    return day.strftime('%m/%d')

plt.bar(range(len(t1)), t1, align='center', color="#4788d2") #All
plt.bar(range(len(t2)), t2, align='center', color="#0c3688") #Not-deleted

plt.xticks(range(len(x)), [format_date(i) for i in x], size='small', rotation=30)
plt.grid(axis = "y")

plt.show()

最佳答案

更新:

我从根本上误解了这个问题。 Felix 正在查询 mongoDB 以找出每个范围内有多少项；因此，我的方法不起作用，因为我试图向 mongoDB 询问这些项目。 Felix拥有大量数据，所以这是完全不合理的。

Felix，这是一个更新的函数，应该可以满足您的需求:

def getDataFromLast(num, quantum):
    m = my_mongodb()
    all = []
    not_deleted = []
    today = datetime.combine(date.today(), time())
    for i in range(num+1)[-1]: # start from oldest
        day = today - i*quantum
        time_query = {"$gte":day, "$lt": day+quantum}
        all.extend(m.data.find({"time":time_query}).count())
        not_deleted.extend(m.data.find({"deleted":0, "time":time_query}).count())
    return all, not_deleted

量子是回顾的“步骤”。例如，如果我们想查看最后一个12 小时，我设置 quantum = timedelta(hours=1) 和 num = 12。我们获取过去 30 天的更新示例用法如下:

from datetime import datetime, date, time, timedelta
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
from my_conn import my_mongodb

#def getDataFromLast(num, quantum) as defined above

def format_date(x, N, pos=None):
    """ This is your format_date function. It now takes N
        (I still don't really understand what it is, though)
        as an argument instead of assuming that it's a global."""
    day = date.today() - timedelta(days=N-x-1)
    return day.strftime('%m%d')

def plotBar(data, color):
    plt.bar(range(len(data)), data, align='center', color=color)


N = 30 # define the range that we want to look at

all, valid = getDataFromLast(N, timedelta(days=1)) # get the data

plotBar(all, "#4788d2") # plot both deleted and non-deleted data
plotBar(valid, "#0c3688") # plot only the valid data

plt.xticks(range(N), [format_date(i) for i in range(N)], size='small', rotation=30)
plt.grid(axis="y")
plt.show()

<小时/>

原文:

好吧，这是我为您重构的尝试。 Blubber建议学习JS和MapReduce。没必要，只要遵循他的其他建议:在时间字段上创建索引，并减少查询次数。这是我对此的最佳尝试，并进行了一些轻微的重构。不过我有很多问题和意见。

开始于:

with my_mongodb() as m:
    for i in range(30):
        day = today - timedelta(days = i)
        t1 = [m.data.find({"time": {"$gte": day, "$lt": day + timedelta(days = 1)}}).count()] + t1
        t2 = [m.data.find({"deleted": 0, "time": {"$gte": day, "$lt": day + timedelta(days = 1)}}).count()] + t2

您正在发出 mongoDB 请求来查找过去 30 天内每一天的所有数据。为什么不只使用一个请求呢？一旦您拥有了所有数据，为什么不直接过滤掉已删除的数据呢？

with my_mongodb() as m:
    today = date.today() # not sure why you were combining this with time(). It's the datetime representation of the current time.time()

    start_date = today -timedelta(days=30)
    t1 = m.find({"time": {"$gte":start_date}}) # all data since start_date (30 days ago)
    t2 = filter(lambda x: x['deleted'] == 0, all_data) # all data since start_date that isn't deleted

我真的不确定你为什么发出 60 个请求(30 * 2，一个用于所有数据，一个用于未删除)。您每天建立数据有什么特殊原因吗？

然后，你有:

x = range(30)
N = len(x)

为什么不:

N = 30
x = range(N)

len(range(x) 等于 x，但需要计算时间。您最初编写的方式有点......奇怪。

这是我的破解方法，我建议以尽可能通用的方式进行更改。

from datetime import datetime, date, time, timedelta
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
from my_conn import my_mongodb

def getDataFromLast(delta):
    """ Delta is a timedelta for however long ago you want to look
        back. For instance, to find everything within the last month,
        delta should = timedelta(days=30). Last hour? timedelta(hours=1)."""
    m = my_mongodb() # what exactly is this? hopefully I'm using it correctly.
    today = date.today() # was there a reason you didn't use this originally?
    start_date = today - delta
    all_data = m.data.find({"time": {"$gte": start_date}})
    valid_data = filter(lambda x: x['deleted'] == 0, all) # all data that isn't deleted
    return all_data, valid_data

def format_date(x, N, pos=None):
    """ This is your format_date function. It now takes N
        (I still don't really understand what it is, though)
        as an argument instead of assuming that it's a global."""
    day = date.today() - timedelta(days=N-x-1)
    return day.strftime('%m%d')

def plotBar(data, color):
    plt.bar(range(len(data)), data, align='center', color=color)

N = 30 # define the range that we want to look at
all, valid = getDataFromLast(timedelta(days=N))
plotBar(all, "#4788d2") # plot both deleted and non-deleted data
plotBar(valid, "#0c3688") # plot only the valid data

plt.xticks(range(N), [format_date(i) for i in range(N)], size='small', rotation=30)
plt.grid(axis="y")
plt.show()

关于python - 使用matplotlib的Mongodb数据统计可视化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8559080/

24

4

0

文章推荐： python - 通过 Scrapy 存储抓取的数据

文章推荐： python - 构建一个将多个枚举组合到一个巨大列表中的变量

文章推荐： python - Django Boto 和上传到 S3 是一个 400 错误请求

iOS 可视化
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。
可视化—AntVG6高亮相邻节点的两种方式
目录内置的高亮节点自定义高亮自定义高亮时保持原始颜色总结案例完整代码通过官方文档，可知高
可视化—gojs超多超实用经验分享(三)
目录 32.go.Palette 一排放两个 33.go.Palette 基本用法 34.创建自己指向自己的连线 35.设置不同的 groupTemplate 和
可视化—gojs超多超实用经验分享(四)
目录 41.监听连线拖拽结束后的事件 42.监听画布的修改事件 43.监听节点被 del 删除后回调事件(用于实现调用接口做一些真实的删除操作) 44.监听节点鼠标
python爬虫天气预报可视化
织梦初秋那是一个宜人的初秋午后，阳光透过窗户洒在书桌上，我轻轻地拂去被阳光映照出的尘屑，伸了个懒腰。哎呀，这个世界真是奇妙啊，想到什么就能用代码实现，就像笔尖上点燃的火花。思索的起点我一直对天气
python爬虫天气预报可视化
曲径通幽，古木参天时光匆匆，不经意间已是2023年的秋季。我身处在这个充满朝气和变革的时代，每天都充满了新的科技突破和创新。而当我想起曾经努力学习的Python编程语言时，心中涌动着一股热情，渴望将
Kibana 可视化 - 自定义图例标签
我有一个堆积条形图，由一个 bool 字段分割。这会导致图例显示为两种颜色(很酷!)但图例具有以下值:true 和 false。对于读者来说，什么是真或假意味着什么是没有上下文的。在这种情况下，字段
r - R中的简单马尔可夫链(可视化)
我想在 R 中做一个简单的一阶马尔可夫链。我知道有像 MCMC 这样的包，但找不到一个以图形方式显示它的包。这甚至可能吗？如果给定一个转换矩阵和一个初始状态，那将会很好，人们可以直观地看到通过马尔可夫
statistics - 可视化 - Tableau
我是 tableau 的新手，我有以下可视化，这是链接: My visualization 我的问题是我不知道如何在一个仪表板中添加多个仪表板作为选项卡。在我的可视化中，有三个仪表板“Nota tot
audio - 通过音量和BPM控制视频输入/可视化
我建立类似自动VJ程序的东西。我有2个网络摄像头发出的2个incomig视频信号和一些可视化效果(目前2个，但我想要更多)。我有一个以dB为单位的传入音频信号音量，以bpm为单位。我需要的是视频输出的
iphone - 可视化:最好的方法？
我需要可视化的东西，并想要求一些提示和教程。或者使用哪种技术(Cocos2D、OpenGL、Quartz，...) 这里有人在 iOS 设备上做过可视化吗？它是关于移动物体、褪色、粒子等等…… 任何
graph - 可视化 - 与项目值成比例的圆圈大小
我对 Graphviz 越来越熟悉，想知道是否可以生成如下所示的图表/图表(不确定你叫它什么)。如果没有，有人知道什么是好的开源框架吗？ (首选，C++，Java 或 Python)。最佳答案根据
ios - 可视化 UIStackView？
问题很简单——我真的很喜欢用 UIStackView 来组织 UI。但是，我在测试应用程序中看不到 UIStackView 边界。当 UI 元素不是预期的时候，我需要花很多时间来调试。在网上搜索，我找
c++ - 对象指针数组的内存结构(可视化)
例如，我可以通过以下方式分配内存时的情况: Position* arr1 = new Position[5]; Position 是我程序中的一个类，它描述了具有 x 和 y 值的位置点。堆栈上会有
Python NLTK 可视化
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 5 年前。
xml - XSD 可视化？
我最近一直在处理许多半复杂的 XSD，我想知道:有哪些更好的工具可以处理 XML 模式？有没有图形工具？独立的或基于 Eclipse 的是理想的选择，因为我们不是 .net 商店。最佳答案我找到
可视化—AntVG6紧凑树实现节点与边动态样式、超过X条展示更多等实用小功能
通过一段时间的使用和学习，对G6有了更一步的经验，这篇博文主要从以下几个小功能着手介绍，文章最后会给出完整的demo代码。目录 1. 树图的基本布局和
点云转深度图：转化，保存，可视化
三维数据的获取方式 RGBD相机和深度图代码展示：在pcl中，把点云转为深度图，并保存和可视化三维数据的获取方式在计算机视觉和遥感领域，点云可以通过四种主要的技术获得，（1）根据图像衍生而得，
r - 可视化 iGraph 和标签对齐
代码 library(igraph) g <- graph.tree(n = 2 ^ 3 - 1, children = 2) node_labels <- c("", "Group A", "Gro
python - 可视化 DASK 任务图
我正在关注 this tutorial并创建了一个这样的图表: from dask.threaded import get from operator import add dsk = { 'x

首页

博学

6Ren·AI

商城

python - 使用matplotlib的Mongodb数据统计可视化

更新:

原文: