gpt4 book ai didi

google-analytics - 如何从Google Analytics(分析)中提取数据并从中构建数据仓库(网站)?

转载 作者:行者123 更新时间:2023-12-03 12:45:44 26 4
gpt4 key购买 nike

我在Google Analytics(分析)中具有点击流数据(例如,引用URL,顶部登录页面,顶部退出页面)和指标(例如,页面浏览量,访问次数,跳出次数)。还没有数据库可以存储所有这些信息。我需要根据这些数据从头开始构建数据仓库(我认为这是所谓的Web-house)。因此,我需要每天从Google Analytics(分析)中提取数据并将其加载到仓库中。我的问题是:

1)有可能吗?每天的数据都在增加(有的用度量或度量标准(例如访问),有的有新的推荐站点),如何装载仓库?

2)哪种ETL工具可以帮助我实现这一目标? Pentaho我相信有一种方法可以从Google Analytics(分析)中提取数据,有人使用过吗?这个过程如何进行?
任何参考,链接除了答案将不胜感激。

最佳答案

与往常一样,了解底层交易数据的结构(用于构建DW的原子组件)是第一步也是最大的一步。

根据您如何检索数据,基本上有两个选项。在此问题的先前答案中已经提到过,其中之一是通过GA API访问您的GA数据。这非常接近数据在Google Analytics(分析)报告中显示的形式,而不是交易数据。使用它作为数据源的好处是您的“ ETL”非常简单,只需解析XML容器中的数据就可以了。

第二种选择是获取离源更近的数据。

没什么复杂的,这里的几行背景可能对您有所帮助。


GA Web仪表板由创建
解析/过滤GA交易日志
(容器
包含GA数据
对应一个配置文件
帐户)。
此日志中的每一行代表一个
单笔交易并交付
以以下形式发送到GA服务器
来自客户端的HTTP请求。
附加到该请求(即
名义上对于单像素GIF)是
包含所有
从中返回的数据
_TrackPageview函数调用以及来自客户端DOM GA cookies的数据
为此客户设置
浏览器位置的内容
条(http://www...。)。
尽管此请求来自
客户端,由GA调用
脚本(驻留在客户端上)
在执行GA主要任务后立即
数据收集功能
(_TrackPageview)。


因此,直接使用此事务处理数据可能是构建数据仓库的最自然的方法。另一个优点是您避免了中间API的额外开销。

GA用户通常无法使用GA日志的各个行。不过,获取它们仍然很简单。这两个步骤就足够了:


修改网站每个页面上的GA跟踪代码,以便
发送每个GIF请求的副本
(GA日志文件中的一行)到您的
自己的服务器,
立即致电给
_trackPageview(),添加以下行:

pageTracker._setLocalRemoteServerMode();

接下来,只放一个像素的gif
图片在您的文档根目录中并调用
它是“ __utm.gif”。


因此,现在您的服务器活动日志将包含这些单独的交易行,这些交易行也是根据附加到GA跟踪像素的HTTP请求的字符串以及请求中的其他数据(例如,用户代理字符串)构建的。前一个字符串只是键值对的串联,每个键都以字母“ utm”开头(可能是“ urching tracker”)。并非每个utm参数都出现在每个GIF请求中,例如,其中几个仅用于电子商务交易-它取决于交易。

这是实际的GIF请求(帐户ID已清除,否则保持不变):


http://www.google-analytics.com/__utm.gif?utmwv=1&utmn=1669045322&utmcs=UTF-8&utmsr=1280x800&utmsc=24-bit&utmul=en-us&utmje=1&utmfl=10.0%20r45&utmcn=1&utmdt=Position%20Listings%20%7C%20Linden%20Lab&utmhn=lindenlab.hrmdirect.com&utmr=http://lindenlab.com/employment&utmp=/employment/openings.php?sort=da&&utmac=UA-XXXXXX-X&utmcc=__utma%3D87045125.1669045322.1274256051.1274256051.1274256051.1%3B%2B__utmb%3D87045125%3B%2B__utmc%3D87045125%3B%2B__utmz%3D87045125.1274256051.1.1.utmccn%3D(referral)%7Cutmcsr%3Dlindenlab.com%7Cutmcct%3D%2Femployment%7Cutmcmd%3Dreferral%3B%2B


如您所见,该字符串由一组键值对组成,每对键值对之间均用“&”分隔。仅需两个简单的步骤:(i)在“&”号上拆分此字符串; (ii)用简短的描述性短语替换每个gif参数(键),使其更易于阅读:

gatc_version 1

GIF_req_unique_id 1669045322

language_encoding UTF-8

screen_resolution 1280x800

screen_color_depth 24位

browser_language zh-cn

java_enabled 1

flash_version 10.0%20r45

campaign_session_new 1

page_title位置%20Listings%20%7C%20Linden%20Lab

host_name lindenlab.hrmdirect.com

Referral_url http://lindenlab.com/employment

page_request _ / employment / openings.php?sort = da

account_string UA-XXXXXX-X

cookie __utma%3D87045125.1669045322.1274256051.1274256051.1274256051.1%3B%2B__utmb%3D87045125%3B%2B__utmc%3D87045125%3B%2B__utmz%3D87045125.1274256051.1.1.utmcr%3D(referral)%% 7Cutmcss 2就业率%7Cutmcmd%3推荐人%3B%2B

Cookie的解析也很简单(请参见Google的简洁描述 here):例如,


__utma是唯一身份访问者cookie,
__utmb,__ utmc是会话Cookie,并且
__utmz是引用类型。


GA Cookies存储了记录用户每次互动的大部分数据(例如,单击标记的下载链接,单击指向网站上另一页面的链接,第二天的后续访问等)。因此,例如__utma cookie由一组整数组成,每组之间用“。”分隔;最后一组是该用户的访问次数(在这种情况下为“ 1”)。

关于google-analytics - 如何从Google Analytics(分析)中提取数据并从中构建数据仓库(网站)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2858123/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com