搞定数据驱动运营,必须用好的2样武器

今天我想就精细化运营、数据驱动增长里经常提到但充满了误区的一个话题来谈谈。

这个话题是标签体系、标签平台及AB测试。

说一个案例:

我们曾经为一家大型的外资连锁超市做过咨询,他们有自己的DMP系统,跟我们吐槽说人群标签体系一点效果也没有用,用户行为分析有了,量也够了,用户权益也有,但销量该是多少还是多少,甚至还有减无增,被大老板一顿狠批,我们细聊之下才发现,他们为了追求成交量,用户触达永远发全量,比如牛肉促销就触达所有曾经买过牛肉的用户,牛奶促销就触达所有买过牛奶的用户,什么?你说你们平时也是这么干的?那你真的要好好来补一下数据分析、数据运营和标签体系的课。

什么是真正有效的数据驱动运营?

我们经常听到市场上各种智能营销SAAS软件说自己有多厉害,可以多么有效地预测营销效果,但一旦触及一个核心问题:画像和标签的数据生产方时,就都避而不谈。

搞定数据驱动运营,必须用好的2样武器

如果精细化运营解决思路保证不了标签体系和数据指标是紧密关联的,也无法通过统计上的先验和效果预估评估,这是一个“伪装”的用户画像解决方案,本质上不过是一个基于业务规则的信息群发系统,谈不上数据驱动。

下面我提供一个可以用来评估你是否理解标签平台、用户画像Profile和Persona的一个例子,判断标准是你是否能够理解以下的问题到底在问什么。

如果你都没有思考过这些问题就在天天折腾什么数据驱动运营,那基本是在做无用功。

1)定位

好用的用户画像系统,应该是什么样的?* 用户画像在一个公司内应该起到什么样的作用,能区别于其它数据产品的功能;

用户画像的维度与日常的分析之间如何相互关联和起作用的?用什么说服业务方或老板为什么会相信画像是必须的;

用户画像多用在事后回顾分析,事前和事中有哪些好的业务场景可借鉴;

2)建设

具体地,画像系统,组织生产方、标签管理、消费方三方最好的方式是什么;

以什么方式来解决标签计算量大的问题,预计算耗费很多的资源,尤其用户体量大的时候,如何取舍;

标签树中,子标签和父标签应该以什么方式来组织,有什么方法论;具体地,分析先看什么维度,在看什么维度,维度的交叉分析很难抉择;

3)应用

在准确的了解现有用户这件事情上,用户画像最好的实践是什么样的?如何做到?

用户画像的项目如何量化评估单个标签的有效性;尤其是当画像只是一个基础设施的情况下;

业内做得最好的用户画像企业,有哪些好的用户画像的经验?

Persona 和 Profile在实际实际场景中,是如何分别推动业务的发展的?

用户标签体系在业务的提升上哪些属性或维度的权重占比有多少,如何找到完整找到数据模型去支撑业务的优化评估。

用户使用画像标签的时候,如何能让不是特别熟悉业务的同事也知道如何快速上手运用;如何保证用户体验;

注:特别是最后一个让不熟悉业务的运营和增长团队也可以快速上手,这个的确很多企业都解决的不怎么样。

如果你看懂了上述的问题,接下来,你需要解决的问题可能就是:

搞定数据驱动运营,必须用好的2样武器

“通过CRM或者应用层的用户触达,以及站内用户路径优化,结合营销运营策略来做用户增长。”

很多企业可能会有一些基础的用户画像,比如用户社会属性、产品行为、消费偏好等等。但对业务层面来讲,有三点就会比较薄弱:

画像Profile和业务是割裂的,就是不特别清晰画像在业务的提升上哪些属性或维度的权重占比有多少,即没有一个完整化的用户数据模型去支撑业务的优化评估。单点的AB很弱,效率也很慢。

画像Profile没有体系化,画像的精细度不够深,也不能量化去评估。维度之间没有串联起来。比如不清楚用户的优惠敏感度和性别关系有多大,比如我不清楚A人群和B人群的异同有什么量化的差异。

做不到构建模型驱动运营,只能单纯的通过不停AB测去判断用户的偏好,合适的阈值。运营的精细化程度进度很慢。不断AB测叠加的结果下,可能反而离真相越来越远。

我们特别希望能构建体系化的用户画像和智能化的用户数据评估和行为预测体系。

我想这或许是困扰许多团队的问题,但是解决的方案就在问题里面。

先从一个产品运营规划上的例子来看如何让标签体系和AB测试对个性化推荐产生业务价值。

以电商网站的某种页面的个性化推荐为例,考虑到特征的可解释性、易扩展和模型的计算性能,很多线上推荐系统采用LR(逻辑回归)模型训练,这里也以LR模型举例。

很多推荐场景都会用到基于商品的协同过滤,而基于商品协同过滤的核心是一个商品相关性矩阵W,假设有n个商品,那么W就是一个n * n的矩阵,矩阵的元素wij代表商品Ii和Ij之间的相关系数。而根据用户访问和购买商品的行为特征,可以把用户表示成一个n维的特征向量U=[ i1, i2, …, in ]。

于是UW可以看成用户对每个商品的感兴趣程度V=[ v1, v2, …, vn ],这里v1即是用户对商品I1的感兴趣程度,v1=i1w11 + i2w12 + inw1n。如果把相关系数w11, w12, …, w1n 看成要求的变量,那么就可以用LR模型,代入训练集用户的行为向量U,进行求解。这样一个初步的LR模型就训练出来了,效果和基于商品的协同过滤类似。

这时只用到了用户的行为特征部分,而人口属性、网购偏好、内容偏好、消费能力和环境特征等其他上下文还没有利用起来。把以上特征加入到LR模型,同时再加上目标商品自身的属性,如文本标签、所属类目、销量等数据,如下图所示,进一步优化训练原来的LR模型。从而最大程度利用已经提取的用户画像数据,做到更精准的个性化推荐。

但是对于推荐算法的好坏,就需要为符合这些特征的用户进行切分流量的AB测试,来验证效果。

比如下图就是一个比较完整的标签体系,在实际应用中是一个数据产品(含API和数据输出能力):

搞定数据驱动运营,必须用好的2样武器

图:标签体系

通过这样的数据工作流程,自动的产品运营(如个性化推荐)和业务人为介入的营销规则和用户圈选,都可以利用标签体系来实现流量获取后的精细化运营,这也是头条、美团和快手这样的企业已经具备的能力。

业务团队如何快速开始围绕标签体系进行数据运营?

首先,需要拥有一个完善的标签体系对应的软件系统/工具。

从实际落地的效果来看,需要建立一个可视化精细化运营系统,并提供与第三方或者自建的AB测试系统打通的能力是关键。

我们继续使用上面那个比较完整的问题列表来回答标签体系的问题:

首先叫用户画像是有误区的,更科学专业的应该分别是:定量和数据工程领域的Profile,调研和定性领域的Persona。

一个好的Profile领域的用户画像标签系统是一个专门负责将沉淀在企业数据仓库的用户点击行为数据、业务数据和交易数据通过事实和规则化的降维处理,让数据变得可用

标签系统应该是数据中台的一个核心部分,并可以支持对企业的其他营销和运营系统提供标签的查询和输出能力,比如可以让CRM、多平台信息推送系统,数据分析系统都可以获得经过标签管理平台产生的用户、产品、功能和内容标签

业务团队可以通过手工创建包含业务诉求的人工规则标签,标签平台可以提供事实、规则、模型和预测标签的效果预估评估能力

搞定数据驱动运营,必须用好的2样武器

一个好的标签体系,及所对应的软件系统和工具应该支持业务运营和产品团队自动创建产生标签,并使用。

比较好的实践,像阿里内部的数据产品比如棱镜,天选,地藏都是类似的,业务运营甚至是天猫卖家都可以在上面做简单的逻辑组合或者是筛选后,后端通过sql引擎以及算法引擎自动的帮业务运营甚至是天猫卖家找出所需要的用户,做一些精细化运营,这些都不需要技术参与。

这样的话能大大提高业务的自主性和执行效率,不需要等待,或者说是由后方的技术人员的限制而拖累他们的进度。再者很多的机器学习的算法或者是标签的产生,其实使用方都是业务部门,他们应该是要对这这类东西的产生有一定的理解。

如果全是黑盒的话,他们也会惧怕使用。

引用今年在加拿大温哥华举办的人工智能领域的重量级NeurIPS 2019大会上比较深刻的一句话

搞定数据驱动运营,必须用好的2样武器

图:Our Goal is not be predict, but rather understand

其实标签体系或者说是标签产品工具,它本质上是一个工具,工具当然是为了提高工作效率的,而作为使用者的业务运营和产品团队必须可以对这些有重大的参与感,才能理解和信任这个有着“黑盒”能力的系统:

参与规则标签的制定

参与模型标签的制定

可以定义权重

可以定义维度

这样,通过一个完善的标签平台来解耦受众定向、人群拆分和效果预估中对研发资源的严重依赖,完全提高了业务运营团队的营销策略从设计到验证及实施的工作效率。

别忘了对设定受众的营销动作前通过AB测试预判效果

需要AB测试的原因是:

搞定数据驱动运营,必须用好的2样武器

任何维度很高的数据驱动决策(比如给几百万用户按策略进行营销,并可以预估不同人群对营销耐受的程度)都会需要避免浪费开发和运营资源,避免不必要的用户打扰。

AB测试可以作为一个工具来有效帮助运营团队在定量和定性上找到相关用户特征,并发现真实原因。

从行业目前发展的趋势来看,越来越多的企业都开始组建专门的数据驱动产品增长团队,我把AB测试可以应用的范围也列举一下:

UX/用户体验:能通过通过数据分析、用户调研和流量试验等手段改进用户体验设计,并解决业务需求,能利用网站和APP分析、AB测试工具。一个很好的例子见:硅谷产品牛人谈指标和产品设计:价值8千万美元的“Metrics-Driven Design” 【PDF】

产品:学习、应用、迭代:使用数据分析的手段找到促进用户增长的点;设计A/B测试方案,比如在设计个性化推荐产品(含算法)时,需要借助标签平台和AB测试平台,来测试推荐规则/算法对不同人群的效果。

市场增长:通过测试平台推动增长,包括市场营销,转化率优化等。通过试验和迭代,找到我们增长最快的地方,并知道是怎么做到了,比如渠道投放的登陆页面的布局和文案优化。

用户运营:通过对用户的洞察,设计运营策略,借助数据分析和AB测试验证运营策略的有效性,有效应用标签规则和用户画像Profile,做好用户分层,并精准地围绕用户生命周期完成业务运营。

Ya Xu是Linkedin的数据科学负责人,也是曾经和著名的Ronny Kohavi大牛一起在微软搭建了全公司AB测试平台的核心成员。

她曾经讲过一个如何把AB测试用在品酒会上的有趣例子

一个好的品酒聚会将把人们聚集在一起, 在轻松有趣的环境中发展新的、更牢固的社会关系。如果你幸运的话, 创造性的活力就会像葡萄酒一样流动,并且可能产生了不起的想法。在LinkedIn, 他们大胆地迈进了一步, 向参与品酒派对的人们施压, 要求提供数据, 以展示公司的AB测试文化。

晚会一开始他们就问参加聚会的人: “更贵的酒味道更好吗”

当然, 对这个问题达成客观的答案并不是什么小壮举,影响人们如何回答这个问题的因素很多。所有对数据痴迷的LinkedIn 员工都知道,

客观回答问题的唯一方法是运行A/B测试。

为实验创建有效性的明显第一步是葡萄酒的选择。

注:是不是回忆起在做营销、运营和产品方案设计时的选择痛苦了?

也许影响实验的最关键因素是用来区别葡萄酒之间的唯一区别:价格。比如在聚会上,其中一种葡萄酒的价格是另一种葡萄酒的两倍,但都是2011年的葡萄酒,来自纳帕谷的赤霞珠。

下一步是确定如何进行实验。

一种方法是将参加品酒的人随机分成两组,给每一组都一个酒,问:“你要为此付出多少钱”?另一种方法是给每个人两个葡萄酒, 问:”你更喜欢哪一种”。

注:在实际样本量很大,人群复杂的情况下随机分还OK吗?

在第一种方法中, 人们可以猜测截然不同的值, 并且会有更高的可变性。第二种 “配对” 方法允许用更少的数据轻松得出结论。这种方法的一个缺点是, 品尝的顺序可能会影响结果。为了减少这种可能性, 饮酒者 (带着抛硬币) 随意挑选葡萄酒先品尝。因此, 尽管一个人可能对他们品尝的第一瓶葡萄酒有偏见, 但对全体人口的结果不会出现同样的缺陷。第二种方法的一个决定性方面是, 每个人都可以喝这两种酒!

在经历了所有的乐趣和兴奋之后, 每个人都品尝了这两种葡萄酒, 并对237张选票进行了计数和分析。结果是, 人们无法判断哪种酒更贵。

这群人还可能扔了一枚硬币, 因为119名饮酒者正确地识别了昂贵的葡萄酒, 118名饮酒者没有这样做。更多的人更喜欢价格实惠的葡萄酒 (237 人中有145人)。尽管超过半数自我表明来自欧洲的人未能挑选出价格较高的葡萄酒, 但超过半数自我表明来自亚洲的人更喜欢价格较高的葡萄酒。作为一个群体, 男性和女性都认为平价葡萄酒味道更好。有趣的是, 更多的男性可以分辨出哪种酒更贵, 而女性对口味和价格的判断更一致。

虽然我们对品尝顺序很谨慎, 但我们不必担心。因为品尝的顺序对确定哪种葡萄酒更贵没有明显的影响。有趣的是, 工程师比产品经理更善于判断哪种葡萄酒更贵。会不会是工程师比项目经理有更多的时间来放纵生活的乐趣?其实没有, 如果你仔细看一下数据, 原来只有15 人表示自己负责产品经理相关的职能。

哈哈,这么小的样本,并没有足够的统计效能去总结关于产品经理和工程师有意义的话题啦。

OK,读到这里,或者你该会心一笑,Linkedin的数据驱动似乎太极致了。

回顾一下Ya Xu的观点,有几个重要的问题恰恰是我们在做数据驱动时候经常困惑的?

比如:

随机分配流量做AB测试可以吗?

在什么时候应该引入AB测试?

AB测试的时候哪些条件应该保持不变?

测试的时间长度应该如何把握?

到底如何设定AB测试的观测指标呢?

还有一个非常关键的问题:

用户特征(比如性别,比如地区,比如业务偏好等)对AB测试的影响是什么?或者如何利用用户特征来有效决定测试的流程和方法?

这就回到了我们一直提倡的结合人群标签实施AB测试的方法。

相关观点