A/B测试与灰度发布

农村四月闲人少,勤学苦攻把名扬。这篇文章主要讲述A/B测试与灰度发布相关的知识,希望能为你提供帮助。
产品设计中,经常会遇到哪种产品设计方案更优:按钮大点还是小点好;页面复杂点好还是简单点好;这种蓝色还是另一种蓝好;新推荐算法是不是效果真好…这种讨论会出现在运营人员和产品经理之间,也会出现在产品经理和工程师之间,有时候甚至会出现在公司最高层,成为公司生死存亡的战略决策。
A/B测试是大型互联网应用的常用手段。如说设计主观,那数据是客观的,与其争执哪种设计更好、哪种方案更受用户欢迎,不如通过A/B测试让数据说话。所以A/B测试是更精细化的数据运营手段,通过A/B测试实现数据驱动运营,驱动产品设计,是大数据从幕后走到台前的重要一步。
A/B测试过程A/B测试将每一次测试当作一个实验。通过A/B测试系统的配置,将用户随机分成两组(或者多组),每组用户访问不同版本的页面或者执行不同的处理逻辑,即运行实验。通常将原来产品特性当作一组,即原始组;新开发的产品特性当作另一组,即测试组。
经过一段时间(几天甚至几周)以后,对A/B测试实验进行分析,观察两组用户的数据指标,使用新特性的测试组是否好于作为对比的原始组:

  • 效果好,那这个新开发特性就会在下次产品发布的时候正式发布出去,供所有用户使用
  • 效果不好,这个特性就会被放弃,实验结束
A/B测试与灰度发布

文章图片

大型网站通常都会开发很多新产品特性,很多特性需A/B测试,所以在进行流量分配的时候,每个特性只会分配到比较小的一个流量进行测试,如1%。但大型网站总用户量大,即使1%用户,实验数据也具代表性。
A/B测试系统架构最重要的是能根据用户ID(或者设备ID)将实验配置参数分发给应用程序,应用程序根据配置参数决定给用户展示的界面和执行的业务逻辑:
A/B测试与灰度发布

文章图片

在实验管理模块里进行用户分组,比如测试组、原始组,并指定每个分组用户占总用户的百分比;流量分配模块根据某种Hash算法将用户(设备)分配到某个实验组中;一个实验可以有多个参数,每个组有不同的参数值。
移动App在启动后,定时和A/B测试系统通信,根据自身用户ID或者设备ID获取自己参与的A/B测试实验的配置项,根据配置项执行不同的代码,体验不同的应用特性。应用服务器和A/B测试系统在同一个数据中心,获取实验配置的方式可以更灵活。
移动App和应用服务器上报实验数据其实就是传统的数据采集,但是在有A/B测试的情况下,数据采集上报的时候需要将A/B测试实验ID和分组ID也上报,然后在数据分析时,才能够将同一个实验的不同分组数据分别统计,得到A/B测试的实验数据报告。

灰度发布经过A/B测试验证过的功能特性,就可以发布到正式的产品版本中,向所有用户开放。但是有时候在A/B测试中表现不错的特性,正式版本发布后效果却不好。此外,A/B测试的时候,每个功能都应该是独立(正交)的,正式发布的时候,所有的特性都会在同一个版本中一起发布,这些特性之间可能会有某种冲突,导致发布后的数据不理想。
解决这些问题的手段就是灰度发布:不一次性将新版本发布给全部用户,而是一批批逐渐发布给用户。过程中,监控产品的各项数据指标,看是否符合预期,若数据表现不理想,就停止灰度发布,甚至灰度回滚,让所有用户都恢复到以前版本。
灰度发布系统可用A/B测试系统来承担,创建一个名叫灰度发布的实验即可,这个实验包含这次要发布的所有特性的参数,然后逐步增加测试组的用户数量,直到占比达到总用户量的100%,即为灰度发布完成。
灰度发布的过程也叫灰度放量,灰度放量是一种谨慎的产品运营手段。对于android移动App产品而言,因为国内存在很多个应用下载市场,所以即使没有A/B测试系统,也可以利用应用市场实现灰度发布。即在发布产品新版本的时候,不是一次在所有应用市场同时发布,而是有选择地逐个市场发布。每发布一批市场,观察几天数据指标,如果没有问题,继续发布下一批市场。

总结A/B测试的目的依然是为了数据分析,因此通常被当作大数据平台的一个部分,由大数据平台团队主导,联合业务开发团队和大数据分析团队合作开发A/B测试系统。A/B测试系统囊括了前端业务埋点、后端数据采集与存储、大数据计算与分析、后台运营管理、运维发布管理等一个互联网企业几乎全部的技术业务体系,因此开发A/B测试系统有一定难度。
大数据生态体系包括Hadoop这样的大数据产品,还包括大数据平台、大数据分析、大数据机器学习,这才是一个大数据技术体系的完整知识框架。
【A/B测试与灰度发布】如果AB测试,涉及到调整了数据结构或业务逻辑较大改动,是否还有用?比如统计中需要全量数据,AB测试分成两个不同表来存。暂时考虑的是冗余存储比调整报表逻辑好,但是不知道是否会影响到AB测试的结果,毕竟有一部分是多做了近一倍的事,性能、用户感受这些指标结果可能又不准确。
A/B测试可理解成在原来的打点基础上增加了实验ID、分组ID,数据存储和结构跟原来一样,SQL统计的时候根据ID分别统计,就得到各个实验分组的PV转化率这些指标。
AB测试的逻辑偏复杂、需求也是花样百出,对于SDK,每做一个功能,逻辑设计就要将近一周,代码开发两天。像flurry友盟等单纯数据收集的SDK,很长时间都不会发版。
怎么把AB测试的SDK内部逻辑做的比较灵活,目的是适用业务需求变化,还不用频繁发版。
AB test总体分为:实验方法,指标计算,效果评估,整体流程还要结合公司的业务,例如流量划分,指标体系建设等。APP端一般都是通过sdk进行埋点数据。然后进行etl。
AB测试用户喜不喜欢是如何获得的?pv uv 留存各种数据指标下降了,就是不喜欢。
abtest流量划分需要尽量随机,保证实验结果客观,不应该有太多的划分方式。
用户请求AB实验成功后,AB后台会下发一组配置给该用户,用户的App会将这组配置作为参数加载进来,并在下一次请求前,不会改变APP的界面和效果,直到下一次这些AB实验的参数发生改变。

    推荐阅读