- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
如何在 Google App Engine (Python) 上执行此操作:
SELECT COUNT(DISTINCT user) FROM event WHERE event_type = "PAGEVIEW"
AND t >= start_time AND t <= end_time
长版:
我有一个 Python Google App Engine 应用程序,其中包含生成事件(例如网页浏览)的用户。我想知道在给定的时间跨度内有多少唯一用户生成了网页浏览事件。我最感兴趣的时间跨度是一周,一周内大约有 100 万个此类事件。我想在 cron 作业中运行它。
我的事件实体如下所示:
class Event(db.Model):
t = db.DateTimeProperty(auto_now_add=True)
user = db.StringProperty(required=True)
event_type = db.StringProperty(required=True)
使用 SQL 数据库,我会做类似的事情
SELECT COUNT(DISTINCT user) FROM event WHERE event_type = "PAGEVIEW"
AND t >= start_time AND t <= end_time
首先想到的是获取所有 PAGEVIEW 事件并过滤掉重复的用户。像这样的东西:
query = Event.all()
query.filter("t >=", start_time)
query.filter("t <=", end_time)
usernames = []
for event in query:
usernames.append(event.user)
answer = len(set(usernames))
但这行不通,因为它最多只能支持 1000 个事件。我想到的下一件事是获得 1000 个事件,然后当这些事件用完时获得下一个,依此类推。但这也行不通,因为通过一千个查询并检索一百万个实体将花费超过 30 秒,这是请求时间限制。
然后我想我应该按用户排序以更快地跳过重复项。但这是不允许的,因为我已经在使用不等式“t >= start_time AND t <= end_time”。
很明显这不可能在 30 秒内完成,因此需要对其进行分段。但是寻找不同的项目似乎并没有很好地分成子任务。我能想到的最好的办法是在每个 cron jobcall 上找到 1000 个页面浏览事件,然后从中获取不同的用户名,并将它们放在像 Chard 这样的实体中。它可能看起来像
class Chard(db.Model):
usernames = db.StringListProperty(required=True)
因此,每个 chard 最多可包含 1000 个用户名,如果删除了重复项,则更少。大约 16 小时后(这很好),我将拥有所有的甜菜并可以做类似的事情:
chards = Chard.all()
all_usernames = set()
for chard in chards:
all_usernames = all_usernames.union(chard.usernames)
answer = len(all_usernames)
这似乎可行,但不是一个完美的解决方案。如果有足够多的独特用户,这个循环可能会花费很长时间。我还没有测试过它,希望有人能提出更好的建议,所以如果这个循环足够快的话就不要测试了。
我的问题有更好的解决方案吗?
当然,所有这些独特的用户计数都可以使用 Google Analytics 轻松完成,但我正在构建应用程序特定指标的仪表板,并打算将其作为众多统计数据中的第一个。
最佳答案
从 SDK v1.7.4 开始,现在有对 DISTINCT 函数的实验性支持。
参见:https://developers.google.com/appengine/docs/python/datastore/gqlreference
关于python - 在 Google App Engine 上获取 DISTINCT 用户,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2162409/
Google Cloud Compute 中的 Google Compute Engine、App Engine 和 Container Engine 之间的实际区别是什么?什么时候使用什么? 有什么
我有一个在 Google App Engine 中运行的应用程序,它访问在 Google Compute Engine 中的机器上运行的服务。 Google App Engine 应用程序是该服务唯一
我们正在谷歌云中构建一个应用程序。我们使用 App Engine 作为前端,使用 Compute Engine 作为后端。在这些 Compute Engine 实例上,我正在运行一个接受特定“命令”消
我有一个现有的 GAE 应用程序(我们称之为应用程序 A)正在运行的情况,但由于非技术原因无法修改。当用户迁移到新的客户端版本时,我们需要将他们的数据从应用程序 A 迁移到新的 GAE 应用程序(我称
我正在尝试发现 App Engine 上的其他已部署服务。类似于 this文章建议。 我的代码是这样的: import ( "fmt" "net/http" "google.g
我想在我的网站上为“图像处理”事件设置服务器。如果我在 GCE 中使用“n1-standard-1”实例,GAE 中的可比功率是多少?是因为我算错了,还是同一个功率两者价格相差很大? 最佳答案 按小时
我在 Googl Compute Engine 和 Google App Engine 标准环境中的应用程序中创建了一个 VM 实例。我打算在 App Engine 中使用我的应用程序,在 Compu
我像往常一样使用 appcfg.py 更新我的应用程序,但收到一条错误消息。我试过 appcfg.py 回滚,两次尝试之间等了十分钟,但我仍然收到相同的错误消息。我该怎么办? 无法对 apps/dev
我想在 Google Compute Engine 上放置一个 Redis 服务器,并通过 AppEngine 的套接字支持与其对话。唯一的问题是似乎没有特定的防火墙规则说“此 AppEngine 应
我想知道 App Engine 和 Compute Engine 之间有什么区别。任何人都可以向我解释其中的区别吗? 最佳答案 App Engine 是一种平台即服务。这意味着您只需部署代码,平台会为
我正在编写一个在 App Engine 的 Go 运行时上运行的 Go 应用程序。 我注意到几乎所有使用 App Engine 服务(例如 Datastore、Mail 甚至 Capabilities
是否有人有在 Grid Engine/Sun Grid Engine/Son of Grid Engine 上运行 Docker 的经验,并且能够 monitor the resource used
我读了很多论坛,因为 grails app-engine 插件多年来没有更新,所以不可能将 grails 应用程序部署到谷歌应用程序引擎。当我准备放弃时,我发现使用 intellij 部署项目是可能的
当前设置, 运行 Windows Server 2012 (GCE Server 2012) 的谷歌计算引擎 运行 Debian Wheezy(GCE 服务器 Wheezy)的 Google 计算引擎
特定于基于 Docker 的部署,这两者之间有什么区别?由于 Google App Engine Flexible 现在也支持基于 Dockerfile 的部署,并且它也是完全托管的服务,因此它似乎比
我相信 Google Kubernetes Engine (GKE) 在 Google Compute Engine (GCE) 上运行。那么,在服务器管理方面使用 Google Kubernetes
TLDR;关于这个问题有任何更新吗? Google App Engine communicate with Compute Engine over internal network -- 是否可以在同
我正在尝试使用 Go SDK 为 App Engine 编写应用程序,但它似乎与单元测试有一种有趣的关系。人有written libraries左右this original, outdated一组工
在 App Engine 中,我想对在同一个 Google 云项目中创建的 Compute Engine 实例上运行的网络服务器进行 http fetch 调用,我想知道是否可以在不启用的情况下对实例
在编写 Go App Engine 标准应用程序时,过去的情况是您必须使用 App Engine SDK访问数据存储。然而,最近(从 Go 1.11 开始?),如果你只使用 Cloud Datasto
我是一名优秀的程序员,十分优秀!