- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
如何在 Google App Engine (Python) 上执行此操作:
SELECT COUNT(DISTINCT user) FROM event WHERE event_type = "PAGEVIEW"
AND t >= start_time AND t <= end_time
长版:
我有一个 Python Google App Engine 应用程序,其中包含生成事件(例如网页浏览)的用户。我想知道在给定的时间跨度内有多少唯一用户生成了网页浏览事件。我最感兴趣的时间跨度是一周,一周内大约有 100 万个此类事件。我想在 cron 作业中运行它。
我的事件实体如下所示:
class Event(db.Model):
t = db.DateTimeProperty(auto_now_add=True)
user = db.StringProperty(required=True)
event_type = db.StringProperty(required=True)
使用 SQL 数据库,我会做类似的事情
SELECT COUNT(DISTINCT user) FROM event WHERE event_type = "PAGEVIEW"
AND t >= start_time AND t <= end_time
首先想到的是获取所有 PAGEVIEW 事件并过滤掉重复的用户。像这样的东西:
query = Event.all()
query.filter("t >=", start_time)
query.filter("t <=", end_time)
usernames = []
for event in query:
usernames.append(event.user)
answer = len(set(usernames))
但这行不通,因为它最多只能支持 1000 个事件。我想到的下一件事是获得 1000 个事件,然后当这些事件用完时获得下一个,依此类推。但这也行不通,因为通过一千个查询并检索一百万个实体将花费超过 30 秒,这是请求时间限制。
然后我想我应该按用户排序以更快地跳过重复项。但这是不允许的,因为我已经在使用不等式“t >= start_time AND t <= end_time”。
很明显这不可能在 30 秒内完成,因此需要对其进行分段。但是寻找不同的项目似乎并没有很好地分成子任务。我能想到的最好的办法是在每个 cron jobcall 上找到 1000 个页面浏览事件,然后从中获取不同的用户名,并将它们放在像 Chard 这样的实体中。它可能看起来像
class Chard(db.Model):
usernames = db.StringListProperty(required=True)
因此,每个 chard 最多可包含 1000 个用户名,如果删除了重复项,则更少。大约 16 小时后(这很好),我将拥有所有的甜菜并可以做类似的事情:
chards = Chard.all()
all_usernames = set()
for chard in chards:
all_usernames = all_usernames.union(chard.usernames)
answer = len(all_usernames)
这似乎可行,但不是一个完美的解决方案。如果有足够多的独特用户,这个循环可能会花费很长时间。我还没有测试过它,希望有人能提出更好的建议,所以如果这个循环足够快的话就不要测试了。
我的问题有更好的解决方案吗?
当然,所有这些独特的用户计数都可以使用 Google Analytics 轻松完成,但我正在构建应用程序特定指标的仪表板,并打算将其作为众多统计数据中的第一个。
最佳答案
从 SDK v1.7.4 开始,现在有对 DISTINCT 函数的实验性支持。
参见:https://developers.google.com/appengine/docs/python/datastore/gqlreference
关于python - 在 Google App Engine 上获取 DISTINCT 用户,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2162409/
这里的这个问题对 updating Google Sheets charts linked to Google slides 有一个简洁的解决方案. function onOpen() { var
我正在尝试将 Google 表单添加到 Google 类作业中,但似乎不可能。 首先,它在这里 ( https://developers.google.com/classroom/reference/
出于某种原因,无论我做什么以及我如何尝试,这个日期格式化程序都不起作用。工具提示仍然显示错误的格式。你可以试试代码here . 在代码中我必须注释掉 formatter.format(dataTabl
我目前正在使用访问 token 和刷新 token 从 Google Analytics Reporting API (v4) 中提取数据。当我致力于自动从 Google Analytics 中提取数
我已在 Google 云端硬盘中创建了一个文件夹,例如测试一下,放入3个文件 a.jpg, b.jpg, c.jpg 我希望在同一帐户下的 Google 电子表格中访问文件,例如生成图像文件的链接,可
电子表格 A 是欢迎新移民来到我们小镇的团队的主数据源。它里面有大量非常敏感的数据,不能公开,哪怕是一点点。 (我们谈论的是 child 的姓名和出生日期以及他们在哪里上学……保证电子表格 A 的安全
有没有办法在 Google 文档中编写 Google Apps 脚本以从 Google 表格中检索仅限于非空白行的范围并将这些行显示为表格? 我正在寻找一个脚本,用于使用 Google Apps 脚本
有没有办法在 Google 文档中编写 Google Apps 脚本以从 Google 表格中检索仅限于非空白行的范围并将这些行显示为表格? 我正在寻找一个脚本,用于使用 Google Apps 脚本
尝试检索存储在 google firebase 中名为条目的节点下的表单条目,并使用谷歌工作表中的脚本编辑器附加到谷歌工作表。 我已将 FirebaseApp 库添加到谷歌表脚本编辑器。然后我的代码看
是否可以将我的 Web 应用程序的登录限制为仅限 google 组中的帐户? 我不希望每个人都可以使用他们的私有(private) gmail 登录,而只能使用我的 google 组中的用户。 最佳答
我们想使用 Google 自定义搜索实现 Google 附加链接搜索框。在谷歌 documentation , 我发现我们需要包含以下代码来启用附加链接搜索框 { "@context"
我想将特定搜索词的 Google 趋势图表添加到我的 Google Data Studio 报告中,但趋势不是数据源列表中的选项。我也找不到嵌入 JavaScript 的选项。是否可以将趋势图表添加到
是否可以将文件从 Google Drive 复制到 Google Cloud Storage?我想它会非常快,因为两者都在类似的存储系统上。 我还没有看到有关无缝执行此操作的任何方法的任何信息,而无需
之间有什么区别 ga('send', 'pageview', { 'dimension1': 'data goes here' }); 和 ga('set', 'dimension1', 'da
我正在尝试记录每个博客站点作者的点击率。 ga('send', 'pageview'); (in the header with the ga code to track each page) ga(
我设置了 Google Tag Manager 和 2 个数据层变量:一个用于跟踪用户 ID,传递给 Google Analytics 以同步用户 session ,另一个用于跟踪访问者类型。 在使用
我在我们的网站上遇到多个职位发布的问题。 我们在加拿大多个地点提供工作机会。所有职位页面都包含一个“LD+JSON ”职位发布的结构化数据,基于 Google 的职位发布文档: https://dev
公司未使用 Google 套件,使用个人(消费者)帐户(甚至是 Google 帐户)违反公司政策。 需要访问 Google Analytics - 没有 Google 帐户是否可能? 谢谢 最佳答案
我想分析人们使用哪些搜索关键字在 Play 商店中找到我的应用。 那可能吗?我怎么能这样做? 最佳答案 自 2013 年 10 月起,您可以关联您的 Google Analytics(分析)和 Goo
Google Now 和 Google Keep 中基于时间和位置的提醒与 Google Calendar 事件提醒不同。是否有公共(public) API 可以访问 Now 和 Keep 中的这些事
我是一名优秀的程序员,十分优秀!