从不均匀性角度浅析AB实验 | 京东云技术团队

作者：京东零售路卫强

本篇的目的是从三个不均匀性的角度,对AB实验进行一个认知的普及,最终着重讲述AB实验的一个普遍的问题，即实验准确度问题。

一、AB实验场景

在首页中，我们是用红色基调还是绿色基调，是采用门店小列表外+商品feed（左图），还是采用门店大列表囊括商品feed（右图），哪种更吸引用户浏览下单呢，简单来处理让50%的用户看到左图效果，让50%的用户看到右图效果，最终通过点击量，单量等指标进行比对得出结论，这是典型的AB实验场景

二、AB实验的定义

A/B实验就是针对想迭代的产品功能，提供两种不同的备选解决方案，然后让一部分用户使用方案A，另一部分用户使用方案B，最终通过实验数据对比来确定最优方案。

从定义里我们就可以看出来,最直观的一个概念,就是用户的分流,此时就涉及到分流人数是否均匀的问题,即人数比例的均匀性。

三、AB中的三个不均匀

1、人数比例的不均匀

目前AB实验的分流核心算法是通过的哈希算法，假设我们按用户名做为分流因子，使用murmurhash算法，以100桶制为例，确定一个人的位置的算法就是

//将用户名通过hash算法计算出一个整数
int hashNum = MurmurHash3.murmurhash3_x86_32(useName)
//整数值对100取模
int bucket = hashNum % 100;

当我们定义一个实验两个策略的人数均为50%时，那么

bucket为0-49的用户由AB系统标记为A,业务系统根据A标记，使得用户使用方案A

bucket为50-99的用户由AB系统标记为B,业务系统根据B标记，使得用户使用方案B。

可是我们都知道哈希算法并不是绝对均匀的，当100人时，基本上不会出现有50个人走A，50个人走B，但是1万个人的时候，两部分流量可能就接近了1:1，10万人的时候可能更接近1:1。

之前有位运营的同学问过，为什么不能用一种很均匀的算法，比如第一个人来了，放入A，第二个人来了放入B，第三个人来了放入A，第四个人来了放入B....，这样一天1W个人来，5000个取A策略，5000个取B策略。

假设我们真的这么做了，第一天是OK的，第二天进A只来了4000人，这样还是不均匀的，如果你第二天仍然按第一天的规则重新分配，这样会有一部分人乱了策略，不符合我们固定人群走固定策略的实验目的。

所以说这个不均匀是无解的，HASH算法是目前最理想的解决方案，前提是你需要一定的流量，流量越大，分流相对就比较准确。

2、人群素质的不均匀

我们假设流量足够大，人数比例很均匀了，但是还有个问题就是人群素质的均匀问题。这里的素质包括消费能力，活跃度，年龄等各种人群因素。

假设现在我们的活动统一采用的A策略（现状），我们想验证一下B策略（新策略）会不会带来客单价的提升，就直接做了AB实验，还按1:1比例来分流，发现使用A方案的人群客单价是100，使用客单价B的人群是96，此时我们能认为原有A方案优于B方案吗？其实是不能的，怎样确定这种人群素质的差异呢，可以采用AA实验，就是两部分人都走A，进行分开统计，可能会发现，位于0-49桶的人群本身客单价就是100，而位于50-99桶的人群可能只有94，这么看来B方案是能提升客单价的，因为位于50-99桶的人群本身指标就差一些。

当然AA不是必须的，可能你有整体的客单价指标，上了B策略后发现整体提升了，这种情况相当于灰度验证了，但实际情况是比较复杂的，整体指标你是不清楚的（因为这里的整体可能只是你取的业务中的一部分流量）。

所以解决素质不均匀的手段就是采用AA提前确定差异性，再在这个差异性基础上看差异的变化。