BigQuery是什么?
Google BigQuery是Google的云数据仓库解决方案,它是Google Cloud Platform的一部分。它旨在处理“大数据”报告,分析和数据科学。
关联BigQuery后可以启用每日自动导出原始GA数据的功能,满足大家希望获取报告或分析数据时不抽样的需求。
使用SQL查询就可以通过BigQuery完成在Google Analytics界面中无法进行的更深入的统计分析、预测分析等。
BigQuery的特性
- PB 级数据规模:轻松存储和分析 PB 级乃至 EB 级数据。
- 无服务器:通过无服务器数据仓储,Google负责在后台完成所有资源预配工作,使用者可以专注于数据和分析,而无需为基础架构的升级、保护或管理问题而分心。
- 数据治理和安全:BigQuery 通过与Identity and Access Management的集成,提供强大的安全和治理控制措施以及精细的控制功能。默认情况下,数据无论是在静态存储时还是在传输过程中,都会受到加密保护。
- 商业智能的基础:可利用Google及Google技术合作伙伴提供的工具无缝地集成、转换、分析、直观呈现和报告数据。
- 灵活提取数据:免费使用Data Transfer Service (DTS) 自动将数百种常用业务 SaaS 应用中的数据转移到BigQuery中,或者利用Cloud Data Fusion、Informatica、Talend等数据集成工具。加载和转换混合云和多云端应用中的任意规模的数据。
更多BigQuery产品特性可参考谷歌官方文档:https://cloud.google.com/bigquery#section-10
目前可关联的Google分析类工具
- Google Analytics 360
- Firebase
- Google Analytics 4(目前免费)
BigQuery价格
免费版GA4目前可以直接和BigQuery集成。在BigQuery中存储数据和查询数据会产生一定的支出,但是成本很低。当前的费用标准为:
- 活跃存储:每月10GB免费。后续为每月每GB $ 0.02
- 长期存储:每月10GB免费。后续为每GB每月$ 0.01
- 查询:每月前1TB免费。后续查询为每TB $5.00
其中活跃存储和长期存储分别是指:
- 活跃存储:对过去 90 天内修改过的表或分区中存储的数据收取的月度费用。
- 长期存储:对过去 90 天内未修改过的表或分区中存储的数据收取的较低月度费用。
目前的优惠政策:新客户可获得 $300 赠金,可在 90 天内抵扣在 Google Cloud 上的支出。
如何启用BigQuery
第 1 步:创建 Google API 控制台项目并启用 BigQuery
- 登录 Google APIs Console
- 创建一个 Google API 控制台项目,或选择一个现有项目。
- 转到 API 表格。打开左上角的“导航”菜单,点击“ API和服务”,然后点击“库”。
- 激活 BigQuery。在“Google Cloud API”下,点击 “BigQuery API”。在随后出现的页面上,点击启用。
- 确认已向Cloud 项目添加服务帐号。确认已将firebase-measurement@system.gserviceaccount.com 添加为项目成员,并授予其项目层级的 Editor 角色。
第 2 步:针对 BigQuery Export 准备您的项目
1、确保项目已启用”结算“。如果项目未启用“结算”,请打开左上角的“导航”菜单,然后点击结算。
2、系统出现提示时,创建一个结算帐号。您需要有结算帐号才能对项目进行结算。按照控制台中的步骤操作以创建结算帐号。
第 3 步:将 BigQuery 关联至 GA4 媒体资源
1、导航至GA4“管理”界面
2、在媒体资源下点击“BigQuery关联”。(要求拥有媒体资源的修改权限)
3、根据系统界面提示,选定需要关联的BQ项目并选择数据存储位置。(要求拥有BQ项目层级的管理权限)
4、配置设置。如果有实时数据查询要求可以选择“流式”,但费用相对“每天“导出会更高。
5、确认信息无误后关联即可。
具体设置步骤可参考谷歌官方文档:https://support.google.com/analytics/answer/9823238?hl=en&ref_topic=9359001
BigQuery Export示例
数据集和数据表
- 数据集:如下图所示,将GA4关联至BQ后,可在BQ导航栏“资源“处下看到关联的媒体资源,每个媒体资源对应一个数据集,如”analytics_1234567“中,1234567则对应关联的媒体资源ID。
- 数据表:媒体资源每天更新的数据将以数据表的形式存储在数据集中
数据表的行和列
数据表中的每一行分别对应了Google Analytics收集的每一个事件,事件中的每个列对应该事件中收集的字段。
数据表中的字段说明可参考谷歌官网文档:https://support.google.com/analytics/answer/7029846?hl=zh-Hans&ref_topic=9359001&authuser=0
为什么要用BigQuery
目前,数据科学已经成为企业或者个人转型中相对核心的部分。企业早就脱离了凭直觉或者小规模调查来做决策的时代,通过分析大量的、底层的真实数据,然后借助智能分析做决策才会让数据更有价值。
不管是使用GA360还是GA4,当企业拥有了底层数据之后,我们就可以做更多的尝试:
- 比如打破Google UI中的维度指标组合按实际业务需求创建高级分析
- 比如整合线上线下数据,进而获取对一个用户的完整行为的分析
- 比如根据我们的商业目标利用BQML中的模型对用户进行更精细的分组识别高质量用户,然后再通过相似人群 (lookalike) 的功能在谷歌广告投放平台上触达更多潜在的优质用户,从而提升转化率等等
BigQuery “薅羊毛”用法
费用上:SANDBOX沙盒模式
如果希望免费试用BigQuery,可以使用SANDBOX(沙盒)模式,因为是免费层级,所有会有一定的使用限额,同步到BigQuery的数据最多可以保存60天。
沙盒模式是Google Cloud的免费计划,所以除了BigQuery,沙盒模式的免费层级同样适用于Compute Engine和Cloud Storage等其它Cloud产品。
数据上:Google Cloud Public Datasets
可能有的小伙伴目前还没有创建Google Analytics 4的媒体资源,或者说数据量不够大,又或者说想先练习自己的SQL语句,那么就可以使用BigQuery中的Google Cloud公开数据集。
Google Cloud Public Datasets 是由 Google 托管在 BigQuery的数据集,借助 Google Cloud Public Datasets 可以直接在 BigQuery 中查询数据,并充分利用其极快的速度和超大查询容量和上手熟悉BigQuery界面。同时还使用 Cloud AutoML、Vision AI 和 BigQuery ML (BQML) 等 GCP 机器学习功能,访问可用于机器学习用途的数据集并从中汲取更多信息。
也就是说,Google 负责把数据都存储在云端,这样所有人都可以在自己的云计算项目中访问到这些数据了。使用者仅需要支付用于查询数据的费用(每月前1 TB免费)。有了这些数据,试用超大型数据集就变得很容易。
如果希望了解更多Google Cloud Public Datasets的内容,请参考官方文档:https://cloud.google.com/public-datasets
如果没有合适的硬件和基础架构,存储和查询大量数据集可能非常耗时且成本过高。BigQuery作为一种企业数据仓库,拥有强大的处理能力可以实现快速查询,从而解决上述问题。
如果目前您拥有GA4的媒体资源,希望免费体验BigQuery的强大功能,那么可以尝试使用沙盒模式,虽然有免费限额以及60天的数据存储限制,但是并不会影响体验。