Firebase 导出到 BigQuery : retention cohorts query-6ren

Firebase 导出到 BigQuery : retention cohorts query

转载作者：行者123 更新时间：2023-12-04 03:31:46

31

4

Firebase 通过 Firebase 远程配置提供拆分测试功能，但无法过滤具有用户属性(实际上具有任何属性)的同类群组部分中的保留。

为了寻求这个问题的解决方案，我正在寻找 BigQuery，因为 Firebase Analytics 提供了将数据导出到该服务的可用方法。

但是我遇到了很多问题，谷歌没有答案或例子可以指出我正确的方向。

一般问题:

作为第一步，我需要聚合代表相同数据 firebase 队列的数据，所以我可以确定我的计算是正确的:

下一步应该只是对查询应用约束，以便它们匹配自定义用户属性。

到目前为止，我得到了什么:

主要问题 - 用户计算的巨大差异。有时大约有 100 个用户，但有时接近 1000 个。

这是我使用的方法:

# 1

# Count users with `user_dim.first_open_timestamp_micros` 
# in specified period (w0 – week 1)
# this is the way firebase group users to cohorts 
# (who started app on the same day or during the same week) 
# https://support.google.com/firebase/answer/6317510

SELECT
  COUNT(DISTINCT user_dim.app_info.app_instance_id) as count
FROM
  (
   TABLE_DATE_RANGE
    (
     [admob-app-id-xx:xx_IOS.app_events_], 
     TIMESTAMP('2016-11-20'), 
     TIMESTAMP('2016-11-26')
    )
  )
WHERE
  STRFTIME_UTC_USEC(user_dim.first_open_timestamp_micros, '%Y-%m-%d')
  BETWEEN '2016-11-20' AND '2016-11-26'

# 2

# For each next period count events with 
# same first_open_timestamp
# Here is example for one of the weeks. 
# week 0 is Nov20-Nov26, week 1 is Nov27-Dec03

SELECT
  COUNT(DISTINCT user_dim.app_info.app_instance_id) as count
FROM
  (
   TABLE_DATE_RANGE
    (
     [admob-app-id-xx:xx_IOS.app_events_], 
     TIMESTAMP('2016-11-27'), 
     TIMESTAMP('2016-12-03')
    )
  )
WHERE
  STRFTIME_UTC_USEC(user_dim.first_open_timestamp_micros, '%Y-%m-%d')
  BETWEEN '2016-11-20' AND '2016-11-26'

# 3

# Now we have users for each week w1, w2, ... w5
# Calculate retention for each of them
# retention week 1 = w1 / w0 * 100 = 25.72181359
# rw2 = w2 / w1 * 100
# ...
# rw5 = w5 / w1 * 100

# 4 

# Shift week 0 by one and repeat from step 1

BigQuery 查询提示请求

非常感谢有关构建复杂查询的任何提示和方向，这些查询可以一步聚合和计算此任务所需的所有数据。

Here is BigQuery Export schema if needed

附带问题:

为什么所有的user_dim.device_info.device_id和 user_dim.device_info.resettable_device_id是 null ?

user_dim.app_info.app_id文档中缺少(如果 Firebase 支持队友会阅读此问题)

怎么样event_dim.timestamp_micros和 event_dim.previous_timestamp_micros应该使用，我无法达到他们的目的。

PS

来自 Firebase 队友的人会很好地回答这个问题。 Five month ago there are was one mention关于通过过滤扩展群组功能或显示 bigqueries 示例，但事情并没有发生变化。他们说 Firebase Analytics 是可行的，他们说 Google Analytics 已被弃用。
现在我花了第二天的时间来学习 bigquery，并在现有的分析工具上构建我自己的解决方案。我不，堆栈溢出不是这个评论的地方，但是你们在想吗？拆分测试可能会在语法上影响我的应用程序的保留。我的应用程序不卖任何东西，在很多情况下，漏斗和事件都不是有值(value)的指标。

最佳答案

Any tips and directions to go about building complex query which may aggregate and calculate all data required for this task in one step is very appreciated.

yes, generic bigquery will work fine

下面不是最通用的版本，但可以给你一个想法
在这个例子中，我使用 Stack Overflow Data可在 Google BigQuery Public Datasets

第一个子选择 - 事件 - 在大多数情况下，这是您唯一需要重写以反射(reflect)数据细节的内容。
它的作用是:
一种。定义要为分析设置的时间段。
在下面的例子中 - 它是一个月 - FORMAT_DATE ('%Y-%m', ...
但是你可以使用 year, week, day or anything else – 分别
• 按年份 - FORMAT_DATE('%Y', DATE(answers.creation_date)) AS 期间
• 按周 - FORMAT_DATE('%Y-%W', DATE(answers.creation_date)) AS 期间
• 按天 - FORMAT_DATE('%Y-%m-%d', DATE(answers.creation_date)) AS 期间
• …
湾此外，它仅“过滤”您需要分析的事件/事件类型
例如，`WHERE CONCAT('|', questions.tags, '|') LIKE '%|google-bigquery|%' 寻找 google-bigquery 标记问题的答案

其余的子查询更不通用，大部分可以按原样使用

#standardSQL
WITH activities AS (
  SELECT answers.owner_user_id AS id,
    FORMAT_DATE('%Y-%m', DATE(answers.creation_date)) AS period
  FROM `bigquery-public-data.stackoverflow.posts_answers` AS answers
  JOIN `bigquery-public-data.stackoverflow.posts_questions` AS questions
  ON questions.id = answers.parent_id
  WHERE CONCAT('|', questions.tags, '|') LIKE '%|google-bigquery|%' 
  GROUP BY id, period
), cohorts AS (
  SELECT id, MIN(period) AS cohort FROM activities GROUP BY id
), periods AS (
  SELECT period, ROW_NUMBER() OVER(ORDER BY period) AS num
  FROM (SELECT DISTINCT cohort AS period FROM cohorts)
), cohorts_size AS (
  SELECT cohort, periods.num AS num, COUNT(DISTINCT activities.id) AS ids 
  FROM cohorts JOIN activities ON activities.period = cohorts.cohort AND cohorts.id = activities.id
  JOIN periods ON periods.period = cohorts.cohort
  GROUP BY cohort, num
), retention AS (
  SELECT cohort, activities.period AS period, periods.num AS num, COUNT(DISTINCT cohorts.id) AS ids
  FROM periods JOIN activities ON activities.period = periods.period
  JOIN cohorts ON cohorts.id = activities.id 
  GROUP BY cohort, period, num 
)
SELECT 
  CONCAT(cohorts_size.cohort, ' - ',  FORMAT("%'d", cohorts_size.ids), ' users') AS cohort, 
  retention.num - cohorts_size.num AS period_lag, 
  retention.period as period_label,
  ROUND(retention.ids / cohorts_size.ids * 100, 2) AS retention , retention.ids AS rids
FROM retention
JOIN cohorts_size ON cohorts_size.cohort = retention.cohort
WHERE cohorts_size.cohort >= FORMAT_DATE('%Y-%m', DATE('2015-01-01'))
ORDER BY cohort, period_lag, period_label

您可以使用您选择的工具可视化上述查询的结果
注意:您可以使用 period_lag 或 period_label
在下面的示例中查看它们的使用差异

与 period_lag

带 period_label

关于Firebase 导出到 BigQuery : retention cohorts query，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41509431/

31

4

0

文章推荐： CMake:具有多个项目的静态库

文章推荐： Yii 模型正在验证但数据无法保存

apache-kafka - 保留配置偏移量.retention.minutes和log.retention.minutes之间的差异
以下两种保留配置之间有什么区别？ offsets.retention.minutes log.retention.minutes 我不知道它有什么不同或相互联系。据我了解，一旦偏移量被删除，日志中的记
apache-kafka - Kafka 中的 log.cleaner.delete.retention.ms 和 log.retention.ms 有什么区别
在文档中 log.cleaner.delete.retention.ms: How long are delete records retained? log.retention.ms: The nu
火力地堡分析 : Retention criteria
我正在考虑为我的应用使用 Firebase Analytics。我很好奇: 保留的标准是什么？保留是否跟踪具有我必须发送的唯一 ID 或唯一设备的用户帐户？如果用户从多个设备登录到我的应用程序，我将
java - 默认情况下将注释配置为运行时保留(没有单独的@Retention)
是否可以有一个配置，其中给定名称或类型的所有注释自动RetentionPolicy.RUNTIME ？我遇到了一个问题，我需要在运行时使用反射来搜索某些注释。但这些是分散在应用程序各处的常见注释，例
java - @Retention 注解的递归使用，怎么可能？
在java中的@Retention注解的源代码中，@Retention是在其定义本身中使用的，这怎么可能。连 RetentionPolicy 都设置在RUNTIME，那么它怎么可能在它还没有准备好运
java - @Retention Java 类型检查器注解
Java 8 类型注释 (JSR 308) 允许类型检查器执行静态代码分析。例如，The Checker Framework可以通过 @NonNull 注释检查可能的nullness。各个项目定义了
kotlin - Annotation Retention.BINARY 的用例是什么？
根据Kotlin language spec ，有三种类型的注释保留: Source retention (accessible by source-processing tools); Binary
prometheus - 在配置文件中而不是命令行参数中指定 storage.tsdb.retention
有没有办法在配置文件中指定 storage.tsdb.retention 标志而不是在命令行上传递？我针对不同的情况有不同的配置文件，如果我也可以在配置文件中指定 storage.tsdb.reten
java - 为什么MyAnnotation的定义需要Documented、Inherited、Retention & RetentionPolicy？
这段代码中这些java.lang.annotation导入的目的是什么？为什么需要它们来定义 MyAnnotation？ import java.lang.annotation.Documented;
prometheus - --storage.tsdb.retention.size 在普罗米修斯
我想在 Prometheus 2.12 中尝试 storage.tsdb.retention.size 的特性。我的 prometheus 保留配置是 90 天或 2GiB。我的预期是当 prome
Firebase 导出到 BigQuery : retention cohorts query
Firebase 通过 Firebase 远程配置提供拆分测试功能，但无法过滤具有用户属性(实际上具有任何属性)的同类群组部分中的保留。为了寻求这个问题的解决方案，我正在寻找 BigQuery，因为
Azure 门户 : How to measure 6-month retention?
我正在使用 Insights 来分析我的用户保留率，如 described on this guide它非常适合按天/周或长达 3 个月来衡量保留率。但是我如何获得 6 个月的保留数？最佳答案确
java - 如何解决错误找不到 Retention 和 IntDef 的符号类？
我想要一个只接受 2 个值的函数，比如说一个和两个。我可以为它使用枚举，但对于 Android，使用常量 (@IntRef) 被认为更好。所以我这样做了: @Retention(RetentionP
Prometheus:可以给 storage.tsdb.retention.time 标志的最小值是多少
我被要求为我的 prometheus 的 storage.tsdb.retention.time 提供最小值。我给它作为 1d。我们能不能给值(value)低于这个。我的意思是我们可以为这个标志指定以
java - Java 1.5 中@Retention 背后发生了什么
我试图了解 Java 1.5 的保留策略。但没有得到清晰的图片。作为per JavaDoc , CLASS - 注释将被记录在类文件中编译器，但不需要在运行时由 VM 保留。 RUNTIME - 注
apache-kafka - 卡夫卡 : deleting messages from topics with retention "compact"
我正在尝试使用 Java 在 Kafka 中的压缩主题上实现一个最小的工作示例。我的压缩运行良好，但是当我按照 kafka 文档中的描述使用键和空值编写消息时，看不到删除发生。使用的库版本:kafk
apache-kafka - kafka + 如何计算 log.retention.byte 的值
的主要作用之一log.retention.byte 参数是避免 kafka 磁盘已满，或者换句话说，清除数据日志以避免 kafka 磁盘已满根据以下链接: https://docs.hortonwo
java - @AliasFor 用于与 @Retention(RetentionPolicy.METHOD) 的接口(interface)？
所以我试图为创建一个别名 @Target(ElementType.METHOD) @Retention(RetentionPolicy.RUNTIME) public @interface ApiRe
java - 注释服务以使用@Retention、@Transactional、@Inherited 进行测试后，TestNG 单元测试不起作用
我正在使用 TestNG 测试业务服务，在 Spring Boot 应用程序中进行模拟单元测试。应用程序是多模块spring boot项目。我正在为业务模块编写单元测试。我在pom中添加了以下依赖
influxdb - 涌入: all old data got deleted after applying retention policy
我有最近7天涌入的数据。我应用了保留政策，突然所有数据被删除。我有大量的Influx执行个体。 CREATE RETENTION POLICY stats_30_day ON server_stats

首页

博学

6Ren·AI

商城

Firebase 导出到 BigQuery : retention cohorts query