为什么Twitter推崇1%试验和数据驱动?
数据驱动的方法对Twitter的成功至关重要,我们会发现在其他敏捷,高度创新的企业中也采用了类似的方法,最有力的方法之一就是采用“1%实验”的理念。
DTalk创办人 顾青
我发现人们很容易说他们的企业是数据驱动的,或者声称已经培育了一种文化让每个人都有力量成为变革推动者和疯狂科学家。
正如马克扎克伯格所建议的那样,“快速行动,打破成见”。
但是,你如何使它成为现实?你如何将成长骇客的心态和方法融入你组织的DNA?
根据我的经验,最有力的方法之一就是采用“1%实验”的理念。我曾经参与过很多采用数据驱动方式的初创公司—包括我目前的公司—并且近距离看到它。
走进Twitter产品创新的核心
在Twitter,1%试验为产品开发人员,工程师,营销人员或其他人提供了在1%的用户会话中测试新想法的许可,几乎可以随意—只要该实验是为了仔细测量结果而设计的。
如果做得对,它可以成为主要的成长动力,就像它的近表亲高速测试一样。这就是Twitter各种各样的改善用户体验的想法是如何从基底开始的,而不是从上到下。
传统测试往往会加强传统的孤岛和官僚作风。采取1%实验的路线是关于民主化实验和把权力从集中的决策者转移到战壕。
这鼓励人们抓住主动,共同努力,打破障碍。这导致了跨职能思维,并促进了个人独创性和集体合作以尽可能最佳方式相吻合的那种“突触”工作场所。
它促进了团结和共同责任的感觉,并使人们感到自豪能在一个以创新和主动性为基础的地方工作。
你会在Netflix这样的公司看到,它促进了一种“自由和责任”的文化,意在吸引自我激励和杰出的员工,他们需要不断测试新方法来优化消费者价值。
Netflix前个性化技术副总裁JohnCiancutti表示:“测试我们的产品创意使我们能够下大赌注,尝试激进或不受欢迎的创意。这使得最优秀的产品思考者能够根据真实的客户价值创造业绩记录。它使我们能够通过辩论建立共识,并建立在我们最好的想法基础上,帮助我们避免’或’的肆意,因为我们可以测试许多途径来解决我们面临的最严峻挑战。“
1%的过程
这里有一个严格的流程,它是否看起来很熟悉?那是因为它就是一种经典的科学方法,但现在我们可以让几乎每个人都进入实验室来尝试试验。
首先,建立一个明确的假设:被测试的具体想法和业务诉求是什么?你认为什么是成功的结果?当你建立一个假设时,要确保你严格保持以用户为中心。
这种同理心让你避免受到看起来很棒的想法影响,最终不利于用户或你的业务。
定义这个想法的成功指标。非常具体,最相关的指标是什么?以及哪些结果将证明其可行性或价值?
定义必须明确:在Twitter,试验者必须锁定这些指标以防止他们挑选出只支持其假设的指标,甚至改变假设以适应结果。
测试假设:通过构建演示实验的工作实施和测量结果的测试框架。理想情况下,在整个组织中应用相同的框架,确保不同团队测试自己想法时的成本效益和一致性。
你可以创建自己的定制测试框架和试验平台,但也有像Optimizely(国内比如AppAdhoc)这样的现有平台。
学习和迭代:让自己接受很有可能你的试验结果不会导致指标发生有意义的变化。这完全没有关系:大多数实验都可能失败,但这本身就是一个关键的学习。
所以准备好多次迭代你的试验。你可能会发现你的初始想法能变化得更好,或者改变你的指标的不同杠杆。这很好,因为这都是数据。
请记住:即使您已经移动指标针,也要继续测试。加倍测试什么可行,并推动发现你的想法的限制或约束。
推广:如果你获得了有意义的积极成果,那么将你的创新想法推广给整个企业组织,然后(希望)将它发布到更多的用户中去。恭喜!
重复这个过程:创建甚至更多的想法,并使用你从上一轮试验中学到的知识来建立新的假设。
试验例子
由于1%试验的理念,在Twitter上采用的一个功能是“引语推文”。在创建初始假设后,一整个系列的变体进行了测试直到最后最成功的那个版本—也就是用户今天使用的。
在向所有用户推出之前,Twitter上最近的其他更改也始于1%实验。就像从“favorites”(由星星代表)转变为“likes”(使用爱心)以及引入更大的创新如Moments一样。
测试几乎总是会引起一些用户或媒体的愤怒或困惑,但这是创新的基本规则:有人会对此抱怨。这种负面反馈是可以的:它可以帮助你理解你的变化的极限。
灌输1%的心态
那么在组织中培养1%实验的心态的关键是什么?
承诺:如果你在软件或服务业工作,创新是一种生存工具,团队是你最好的创新资产。因此,让他们以1%试验的理念作为生存和发展的一种方式
设定期望值: 确保每个人都知道参与实验是他们工作的一部分
委托:将创新的所有权推给你的团队
教育:确保他们接受正确的方法培训
工具:给他们所需的资源和设备
认可:奖励人们进行实验(即使它不成功)—并将这种文化传播给其他人。
AB测试为什么是互联网行业创新的核心能力?
我在教授指导过200多个互联网项目团队后,发现绝大部分企业按照2种不同的逻辑在运营自己的线上业务。
一种是HIPPO驱动的管理方式,可以理解为拿钱最多的人说话算数。
一种是数据和科学试验驱动的管理方式,注重在企业内部创造小团队独立突进的氛围(业务、产品、运营和技术)。
我记得AI领域的著名专家吴恩达就说过:“很多公司对于互联网公司有一个误区,他们认为给一个商场配上一个线上网站,就等于互联网公司。我之前曾经跟一个公司的CIO聊天,他说,亚马逊有一个网站卖东西,我们也有一个网站卖东西,那我们是一样的啊。当然不是一样的,因为亚马逊(Amazon)是一个典型的互联网公司。”
一个传统企业做了网站和APP,不叫+互联网,因为根本没有摸到互联网公司做事的根本特点。
互联网公司的几大特点是这样:
1.互联网公司需要收集大量的用户和业务数据
2.工程师及产品经理共同进行决策(在中国需要加上运营团队)
3. 迭代速度很快
4. 不预设想法,但必须做科学的试验,快速做实验
5. 用数据分析的结果来验证想法是否可行
由于互联网用户的习惯和行为变化很快,靠CIO/CTO/CEO一个人做决策就是完全不考虑人类思维是无法处理大数据这个生理上的极限。
产品经理、工程师一起来做决策的另一个原因是他们更了解技术和用户之间的细节。
从科学试验、A/B测试到现在过去了二十年,很多企业花了一段时间才明白其重要性,那么如果一家企业从现在起要利用人工智能,我觉得这些事情必须要做好:
1)数据收集战略和数据整合技术能力
2)把所有的数据集中到一个高性能的数据仓库里
3)把业务规则逐步实现自动化
4)加强对统计学理论和机器学习技术的业务应用能力
怎么做A/B测试才能实现业务提升?
那么回到实际工作中,我们互联网产品运营怎么用A/B测试?怎么做A/B测试才能实现业务提升?
互联网产品运营通常都有重要的业务优化指标,或者说可以量化的KPI,比如教育行业的在线招生转化率,线上销量,线索数量,App留存率,商品复购率,用户使用时长,用户转发量等等。
针对这些优化指标(比如用户活跃行为数量),我们会提出优化的试验想法(比如增加性格评测功能用户会喜爱),并且分析总结成科学的假设(增加性格评测,用户活跃行为数量会增加20%),再设计和运行一个或多个A/B测试进行假设检验(用10%的流量来试验,对比有性格评测功能的用户组vs没有性格评测功能的用户组,检查有性格评测功能的用户组的用户活跃行为数量是否增加)。
这里,我需提醒大家的是,所有认为可以粗放地通过数据分析、AB测试就能改善产品运营的朋友注意,用户画像+智能化预测是数据驱动增长的核心能力。这个核心能力如果可以具备,就可以在产品运营的各个层面发挥作用。
一位在刚在香港上市的大型互联网企业负责做用户增长的企业负责人向我提了一个问题:
“我们在通过通过CRM用户触达+站内产品路径优化+B端附能做用户增长。基于我们业务,我们会有一些基础的用户画像,比如用户社会属性、产品行为、消费偏好等等。但对业务层面来讲,有三点是很弱的:
1,画像和业务是割裂的,就是不特别清晰画像在业务的提升上哪些属性或维度的权重占比有多少,即没有一个完整化的用户数据模型去支撑我业务的优化评估。单点的AB很弱,效率也很慢。
2,我们的画像没有体系化,画像的精细度不够深,也不能量化去评估。维度之间没有串联起来。比如我不清楚用户的优惠敏感度和他的性别关系有多大,比如我不清楚A人群和B人群的异同有什么量化的差异。
3,数据做不到构建模型驱动运营,只能单纯的通过不停AB测去判断用户的偏好,合适的阈值。运营的精细化程度进度很慢。不断AB测叠加的结果下,可能反而离真相越来越远。
我们特别希望能构建体系化的用户画像和智能化的用户数据评估和行为预测体系。”
请所有认为可以粗放地通过数据分析、AB测试就能改善产品运营的朋友注意,这位负责用户增长同学提出了一个很重要的话题,用户画像+智能化预测是数据驱动增长的核心能力。这个核心能力如果可以具备,就可以在产品运营的各个层面发挥作用。
这个问题如果要解决,就是必须能够做好维度建模、做好业务目标明确的标签体系,在这个基础上通过结合用户研究、群体画像和AB测试去验证各种产品运营和营销策略的有效性。
联系我们谈谈如何解决你的AB测试问题