google-analytics - 谷歌分析 API : hour of event vs hour of session?-6ren

google-analytics - 谷歌分析 API : hour of event vs hour of session?

转载作者：行者123 更新时间：2023-12-01 23:30:24

29

4

假设我有以下疑问:

d1 = service.data().ga().get(
      ids='ga:xxxxxxx',
      start_date='2016-04-25',
      end_date='2016-05-14',
      metrics='ga:users',
      dimensions='ga:dimension1,ga:hour,ga:date',
      sort='-ga:date',
      start_index='1',
      max_results='1500').execute()

d2 = service.data().ga().get(
      ids='ga:xxxxxxx',
      start_date='2016-04-25',
      end_date='2016-05-14',
      metrics='ga:uniqueEvents',
      dimensions='ga:dimension1,ga:eventCategory,ga:eventAction,ga:eventLabel,ga:date,ga:hour',
      sort='-ga:date',
      start_index='1',
      max_results='1500').execute()

ga:dimension1正在填充每个用户唯一的用户范围的客户端 ID。

目标是加入d1和d2上ga:date , ga:hour ，和ga:dimension1 .

但假设用户在 10 点开始 session ，并在 12 点触发事件。d1会给出 hour = 10，但会 d2给出小时 = 10 或 12？

最佳答案

事件将获取事件发生的小时，即 d2 在您的示例中将给出 hour=12。

解决这个问题的方法是在查询中添加维度 ga:sessionDurationBucket，该维度以秒为单位给出 session 的持续时间(请参阅 here )。我不确定你使用什么语言来访问 api，无论如何我不会发布代码，而只会发布解决问题的步骤。 (我使用 R，当然，如果您认为有帮助，我可以发布我的代码)。

我根据 ga:date、ga:hour 和 ga:min 为每条记录构建时间戳
我按 ga:dimension1 和 ga:sessionDurationBucket 对记录进行分组
对于每个组，在循环中:(a) 获取较旧的时间戳，并添加 session 持续时间 (ga:sessionDurationBucket/60+1)/(60* 24) 要获取“最后”时间戳，(b) 我将从 session 的第一个时间戳到最后一个时间戳的所有记录分配给 session ，并且 (c) 如果还有剩余记录，则新的第一个时间戳是旧时间戳这些剩余的记录，然后我转到 (a)
循环之后，“所有”寄存器都分配给一个 session ，然后我进行处理(我将所有寄存器放在引号之间，因为进程中可能有一些寄存器我无法分配，但通常数量可以忽略不计) )

我希望它足够清楚并且有帮助。如果您认为它有用，我可以发布 R 代码，或者如果您告诉我您使用哪种编程语言，我可以尝试重写它...

<小时/>

注释后添加:R 中的示例代码

我正在使用 RGoogleAnalytics 库，这是我运行的查询(请注意，在本例中我不使用 dimension1，因为我正在使用的网站确实没有设置):

query.coll.d <- Init(start.date=start_date.d,
                     end.date=end_date.d,
                     dimensions=c("ga:date",
                                  "ga:hour",
                                  "ga:minute",
                                  "ga:sourceMedium",
                                  "ga:pagePath",
                                  "ga:previousPagePath",
                                  "ga:sessionDurationBucket"),
                     metrics=c("ga:sessions",
                               "ga:pageviews",
                               "ga:newUsers"),
                     table.id="ga:XXX view id XXX",
                     sort="-ga:date,-ga:hour,-ga:minute",
                     max.results = 20000)

ga.query.d <- QueryBuilder(query.coll.d)
ga.data.coll.d <- GetReportData(ga.query.d, token, paginate_query=TRUE)

据此，我构建了时间戳(请注意，GA 不提供秒)，

require(chron)
ga.data.coll.d$datetime <- chron(ga.data.coll.d$date, paste(ga.data.coll.d$hour,
                                                            ga.data.coll.d$minute,
                                                            '00',
                                                            sep=":"),
                                 format=c("ymd","h:m:s"))

这是一个使用全局变量创建唯一 userId 的函数，以便我稍后可以在函数中使用它。

userId <- 1
getNewId <- function() {
  current <- get("userId", envir = .GlobalEnv)
  current <- current + 1
  assign("userId", current, envir = .GlobalEnv)
  return(current)
}

这是我根据上面尝试描述的算法处理分组结果的函数，其中 sessionDurationBucket 是一个整数，datetimes 和sessions 是 session 列表和分组依据的时间戳。

one_minute <- 1/(60*24)
setUserId <- function(datetimes, sessions, sessionDurationBucket) {
  if (length(datetimes) == 1) {
    # just one row received
    return(getNewId())
  }
  if (sum(sessions) == 1) {
    # just one session, all rows belong to the same user
    return(getNewId())
  }
  users <- rep(NA, length(datetimes))
  if (sessionDurationBucket == 0) {
    # sessions of 1 page and length 0 => assign a user per session
    for (i in 1:length(datetimes)) {
      users[i] <- getNewId()
    }
    return(users)
  }
  # general case
  minutes <- ceiling(as.numeric(sessionDurationBucket)/60) + 1
  i <- 1
  while(TRUE) {
    index_lag <- (datetimes >= datetimes[i] - minutes*one_minute) & is.na(users)
    sessions_lag <- sum(sessions[index_lag])
    if (sessions_lag == 1) {
      users[index_lag] <- getNewId()
    } else {
      # two or more sessions mixed together
      users[index_lag] <- 0
    }
    # look for remaining users (without id yet)
    rem_users <- which(is.na(users))
    if (length(rem_users) == 0) {
      break
    }
    i <- min(rem_users)
  }
  return(users)
}

我使用 data.table 来运行分组并创建新列(请注意，在您的情况下，您可以使用 dimension1 而不是 sourceMedium 在分组依据中)。另请注意，它假设寄存器按日期逆序排列，这是在 GA 查询中完成的。

require(data.table)
ga.data.coll.dt <- data.table(ga.data.coll.d)
ga.data.coll.dt[, userId:=setUserId(datetime, sessions, sessionDurationBucket), by=list(sessionDurationBucket, sourceMedium)]

最后，我删除了所有 userId 等于 0 的寄存器，因为对于那些寄存器，上面的代码无法解析 session 。就我而言，这个数字可以忽略不计。

我实际上打算在我的简陋博客中写一篇文章，包括更多解释，但直到月底我才能做到......希望它有所帮助。

关于google-analytics - 谷歌分析 API : hour of event vs hour of session?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37228105/

29

4

0

文章推荐： c - C 编程中的枚举用户定义数据类型

文章推荐： string - UTF-32 和 UCS-4 有什么区别？

文章推荐：涉及 wikiPageWikiLink 的 SPARQL 查询不起作用

node.js - Passport 谷歌 oauth2 与 Passport 谷歌 oauth20 包
这两个包看起来非常相似: http://www.passportjs.org/packages/passport-google-oauth2/ http://www.passportjs.org/pa
javascript - 谷歌、推特认证
我想在我的网站上添加通过 Google 和 Twitter 登录的按钮。我需要只使用应用程序的客户端而不是服务器端来完成此操作。但我没有找到任何 API。对于我发现的所有内容，我需要使用带有 key
javascript - 谷歌+网址分享
我使用此链接通过 google plus 共享我的页面。 https://plus.google.com/share?url=http%3A%2F%2Fexample.com%2Fcompany%2
Python 谷歌 API
我正在尝试学习 google API，并且我的经验是使用 Python，因此我尝试使用 google api python 客户端来访问一些 google 服务，但在构建服务对象时遇到错误。从 ap
indexing - 谷歌，还没有索引
在其实际的实时托管平台上构建实时站点的努力中，有没有办法告诉谷歌不要索引该网站？我发现了以下内容: http://support.google.com/webmasters/bin/answer.py
ios - 谷歌+登录SDK不工作
我正在开发一个 iOS 应用程序。当我运行用于 google+ 登录的程序时，在我点击允许访问按钮后，会显示此消息。 You've reached this page because we have
javascript - 谷歌+1按钮不起作用
我有一个非常复杂的网站，每个页面包含 11 个 js 文件。我最近添加了 google +1 按钮，代码如下: 这会正确显示 +1 按钮，直到我单击它。当我单击它时，出现此错误:https://
javascript 谷歌 API
我正在尝试使用 google API 创建一个 html 文件，以便在 google MAPS 上显示 KML 文件。这是 HTML 代码: function initMap() {
c++ - 谷歌/基准测试结果不一致
我是使用 Google Benchmark 的新手，在本地运行代码与在 Quick-Bench.com 上运行代码时，我收到了运行相同基准测试(下方)的不同结果，该基准测试使用 C++ 检索本地时间.
Ajax 内容索引，谷歌
我已按照 Google 网站上的说明通过添加以下元标记在我的 AngularJS 网站上启用 Ajax 抓取: 呈现的内容有一些链接，如: User 1 User 2 User 3 还有一些呈现动态
java - 谷歌 AppInvite
通过 Google 手册实现 Google AppInvite - link . 启动 Invite Activity 并在 LogCat 中获取下一步: E/AppInviteAgent: Get
谷歌 Go 的表现如何？
那么有人用过 Google 的 Go 吗？我想知道数学性能(例如触发器)与其他具有垃圾收集器的语言(如 Java 或 .NET)相比如何？有人调查过吗？最佳答案理论性能:纯 Go 程序的理论性能
stackdriver - 谷歌 stackdriver 缓慢
Stackdriver 测试我的网站启动速度慢我们使用 cloudflare 作为我们的站点 CDN 提供商。我们使用 stackdriver 从外部测试站点可用性，我们将时间检查间隔设置为 1 分
python - 谷歌 JAX 一维卷积神经网络
我正在尝试使用 stax.GeneralConv() ( https://jax.readthedocs.io/en/latest/_modules/jax/experimental/stax.htm
api - 谷歌 API 更改了来自谷歌金融的数据
我有一个从谷歌金融中提取日内数据的软件。但是，由于昨天 Google 更新了 API，所以软件报错了 Conversion from string HTML HEAD meta http-equiv=
php - 谷歌 oAuth : redirect_uri_mismatch
我们在尝试从 Google 获取 oAuth token 时遇到“redirect_uri_mismatch”错误: [client 127.0.0.1:49892] {\n "error" : "
recaptcha - 谷歌 reCAPTCHA 在中国
我的网站正在使用 Google reCAPTCHA 控件，但我听说它被阻止了中国，反正我看到有人报告说将 API 更改为 https://www.recaptcha.net在中国工作？ Anyone
wordpress - 谷歌 anchor 广告高度过大
背景 WordPress Google Adsense 谷歌自动插入 anchor 定广告 https://pptmon.com 问题如下图所示，主播广告的容器高度太大了! 如何调整高度？这是谷歌
python - 谷歌 Colab 未加载
我在使用 Google Colab 时遇到问题。当我想制作一个新的 Python3 Notebook 时，由于我登录了我的 Google 帐户，因此无法加载刚刚打开的新页面。我该怎么办？感谢您的帮
express - 谷歌 Passport 回调后设置cookie
我正在使用 facebook和 google oauth2使用 passport js 登录, 有了这个流用户点击登录按钮重定向到 facebook/google auth 页面(取决于用户选择的

首页

博学

6Ren·AI

商城

google-analytics - 谷歌分析 API : hour of event vs hour of session?