Google云数据库BigQuery是什么?怎么“薅羊毛”?

BigQuery是什么?

Google BigQuery是Google的云数据仓库解决方案,它是Google Cloud Platform的一部分。它旨在处理“大数据”报告,分析和数据科学。

关联BigQuery后可以启用每日自动导出原始GA数据的功能,满足大家希望获取报告或分析数据时不抽样的需求。

使用SQL查询就可以通过BigQuery完成在Google Analytics界面中无法进行的更深入的统计分析、预测分析等。

BigQuery的特性

  • PB 级数据规模:轻松存储和分析 PB 级乃至 EB 级数据。
  • 无服务器:通过无服务器数据仓储,Google负责在后台完成所有资源预配工作,使用者可以专注于数据和分析,而无需为基础架构的升级、保护或管理问题而分心。
  • 数据治理和安全:BigQuery 通过与Identity and Access Management的集成,提供强大的安全和治理控制措施以及精细的控制功能。默认情况下,数据无论是在静态存储时还是在传输过程中,都会受到加密保护。
  • 商业智能的基础:可利用Google及Google技术合作伙伴提供的工具无缝地集成、转换、分析、直观呈现和报告数据。
  • 灵活提取数据:免费使用Data Transfer Service (DTS) 自动将数百种常用业务 SaaS 应用中的数据转移到BigQuery中,或者利用Cloud Data Fusion、Informatica、Talend等数据集成工具。加载和转换混合云和多云端应用中的任意规模的数据。

更多BigQuery产品特性可参考谷歌官方文档:https://cloud.google.com/bigquery#section-10

目前可关联的Google分析类工具

  • Google Analytics 360
  • Firebase
  • Google Analytics 4(目前免费)

BigQuery价格

免费版GA4目前可以直接和BigQuery集成。在BigQuery中存储数据和查询数据会产生一定的支出,但是成本很低。当前的费用标准为:

  • 活跃存储:每月10GB免费。后续为每月每GB $ 0.02
  • 长期存储:每月10GB免费。后续为每GB每月$ 0.01
  • 查询:每月前1TB免费。后续查询为每TB $5.00

其中活跃存储和长期存储分别是指:

  • 活跃存储:对过去 90 天内修改过的表或分区中存储的数据收取的月度费用。
  • 长期存储:对过去 90 天内未修改过的表或分区中存储的数据收取的较低月度费用。

目前的优惠政策:新客户可获得 $300 赠金,可在 90 天内抵扣在 Google Cloud 上的支出。

如何启用BigQuery

第 1 步:创建 Google API 控制台项目并启用 BigQuery

  1. 登录 Google APIs Console
  2. 创建一个 Google API 控制台项目,或选择一个现有项目。
  3. 转到 API 表格。打开左上角的“导航”菜单,点击“ API和服务”,然后点击“库”。
  4. 激活 BigQuery。在“Google Cloud API”下,点击 “BigQuery API”。在随后出现的页面上,点击启用。
  5. 确认已向Cloud 项目添加服务帐号。确认已将firebase-measurement@system.gserviceaccount.com 添加为项目成员,并授予其项目层级 Editor 角色。

第 2 步:针对 BigQuery Export 准备您的项目

1、确保项目已启用”结算“。如果项目未启用“结算”,请打开左上角的“导航”菜单,然后点击结算。

2、系统出现提示时,创建一个结算帐号。您需要有结算帐号才能对项目进行结算。按照控制台中的步骤操作以创建结算帐号。

第 3 步:将 BigQuery 关联至 GA4 媒体资源

1、导航至GA4“管理”界面

2、在媒体资源下点击“BigQuery关联”。(要求拥有媒体资源的修改权限)

3、根据系统界面提示,选定需要关联的BQ项目并选择数据存储位置。(要求拥有BQ项目层级的管理权限)

4、配置设置。如果有实时数据查询要求可以选择“流式”,但费用相对“每天“导出会更高。

5、确认信息无误后关联即可。

具体设置步骤可参考谷歌官方文档:https://support.google.com/analytics/answer/9823238?hl=en&ref_topic=9359001

BigQuery Export示例

数据集和数据表

  • 数据集:如下图所示,将GA4关联至BQ后,可在BQ导航栏“资源“处下看到关联的媒体资源,每个媒体资源对应一个数据集,如”analytics_1234567“中,1234567则对应关联的媒体资源ID。
  • 数据表:媒体资源每天更新的数据将以数据表的形式存储在数据集中

数据表的行和列

数据表中的每一行分别对应了Google Analytics收集的每一个事件,事件中的每个列对应该事件中收集的字段。

数据表中的字段说明可参考谷歌官网文档:https://support.google.com/analytics/answer/7029846?hl=zh-Hans&ref_topic=9359001&authuser=0

为什么要用BigQuery

目前,数据科学已经成为企业或者个人转型中相对核心的部分。企业早就脱离了凭直觉或者小规模调查来做决策的时代,通过分析大量的、底层的真实数据,然后借助智能分析做决策才会让数据更有价值。

不管是使用GA360还是GA4,当企业拥有了底层数据之后,我们就可以做更多的尝试:

  • 比如打破Google UI中的维度指标组合按实际业务需求创建高级分析
  • 比如整合线上线下数据,进而获取对一个用户的完整行为的分析
  • 比如根据我们的商业目标利用BQML中的模型对用户进行更精细的分组识别高质量用户,然后再通过相似人群 (lookalike) 的功能在谷歌广告投放平台上触达更多潜在的优质用户,从而提升转化率等等

BigQuery “薅羊毛”用法

费用上:SANDBOX沙盒模式

如果希望免费试用BigQuery,可以使用SANDBOX(沙盒)模式,因为是免费层级,所有会有一定的使用限额,同步到BigQuery的数据最多可以保存60天。

沙盒模式是Google Cloud的免费计划,所以除了BigQuery,沙盒模式的免费层级同样适用于Compute Engine和Cloud Storage等其它Cloud产品。

数据上:Google Cloud Public Datasets

可能有的小伙伴目前还没有创建Google Analytics 4的媒体资源,或者说数据量不够大,又或者说想先练习自己的SQL语句,那么就可以使用BigQuery中的Google Cloud公开数据集。

Google Cloud Public Datasets 是由 Google 托管在 BigQuery的数据集,借助 Google Cloud Public Datasets 可以直接在 BigQuery 中查询数据,并充分利用其极快的速度和超大查询容量和上手熟悉BigQuery界面。同时还使用 Cloud AutoML、Vision AI 和 BigQuery ML (BQML) 等 GCP 机器学习功能,访问可用于机器学习用途的数据集并从中汲取更多信息。

也就是说,Google 负责把数据都存储在云端,这样所有人都可以在自己的云计算项目中访问到这些数据了。使用者仅需要支付用于查询数据的费用(每月前1 TB免费)。有了这些数据,试用超大型数据集就变得很容易。

如果希望了解更多Google Cloud Public Datasets的内容,请参考官方文档:https://cloud.google.com/public-datasets


如果没有合适的硬件和基础架构,存储和查询大量数据集可能非常耗时且成本过高。BigQuery作为一种企业数据仓库,拥有强大的处理能力可以实现快速查询,从而解决上述问题。

如果目前您拥有GA4的媒体资源,希望免费体验BigQuery的强大功能,那么可以尝试使用沙盒模式,虽然有免费限额以及60天的数据存储限制,但是并不会影响体验。