数据驱动是企业迈向AI的基石

DTalk XDHACK大赛导师介绍：

顾青，DTalk创办人，XDHack AI Hackathon赛事总顾问。

曾负责携程的产品和数据驱动增长，有超过14年的搜索引擎、互联网用户行为数据和机器学习方面的实践经验，对于如何通过海量数据挖掘来驱动业务决策有丰富的经验，是几十家互联网企业和传统企业数字化转型团队的数据驱动顾问和导师，比如美团、网易、腾讯新闻、豆瓣、华住酒店集团、南方航空、GUCCI、瑞表集团、上汽乘用车、平安信用卡等。

问题1：怎样的原因促使您决定开始做Dtalk？

作为一个比较早从事互联网行业的人，我目睹自从Archie作为世界上第一个搜索引擎诞生后，Yahoo!、Google及2000年百度的连续成功，一直到2007年至2008年间，苹果和Google分别开创了基于ios和安卓的智能手机及app平台，互联网从封闭在大型实验室里的昂贵科研工具彻底演变为现在连三岁儿童都能轻易使用的个人生活助手。

这二十六年的互联网演变历史，也是数据分析、数据挖掘、搜索引擎、机器学习、模式识别等海量数据商业应用日益进步的行业发展史。在商业领域，亚马逊创始人Jeff Bezos在1997年就预见到个性化服务才是电子商务企业的加速器，直到今天Amazon已经通过Echo和Alexa作为前端产品和自身的数据及人工智能服务云一起形成在下一轮竞争中的独特优势。

从Alphago的事件，到谷歌收购Kaggle，Facebook大力推进对内的AI培训，充分利用海量数据形成闭环竞争优势已经成为无法逆转的趋势。既然这么多的行业在进行”+互联网“的转变，谁能深刻理解Jeff Bezos话中的含义，谁才能从根本上重视数据价值并落实在日常业务决策中。

我们曾经在过去几年中陆续一起给许多行业的互联网从业者和管理团队传授过数据驱动产品、运营和设计方面的讲座，我们发现数据从业者是一个比较封闭的技术小圈子，而这样很难让数据驱动业务的观念深入企业经营决策的每个环节。

我们设想是否可以以我们为核心，聚集一批在数据、产品、运营等方面有较大用户体量项目经验的一线专家，通过一种系统化和逐步深入的方式，让数据驱动业务的实践经验可以传递到更多需要的团队中去。所以，DTalk便应运而生。

我们希望DTalk可以：

打破数据从业者封闭的技术小圈子；
打破数据分析从业人员、业务人员、产品设计人员和企业管理者的认知鸿沟；
学习TED的理念，鼓励“Ideas worth Spreading”，鼓励技术、产品、营销、设计和经营决策者可以一起构建正确的认知。
通过从实践中来，回到实践中去的方式，让经验可以直接应用在一线的项目中去，产生价值

问题2：我们看到DTalk的主要组成结构即包括了线上文章，讨论，但同时花了更重要的精力在运作线下workshop和技术型活动等。这样的内容配置是出于怎样的考量呢？

首先，在线学习适合通用型知识，通过模块化的方式，拆解成知识点，一次性传播给大量的人群，这本质上和电视大学没有什么区别，这样的知识传播适合科普和标准化考试，但会无法解决学员的实际工作问题。

DTalk要做的是解决项目和实际工作中的特定问题，单向通用性知识只能起到一部分作用，何况术业有专攻，即便是在某个领域研究很深入的老师，必定有明显是短板的能力范畴（可以读一下人类简史，就明白现代人都是只能从事某个领域及其窄分的专业）。

DTalk组织的专题研讨和线下Workshop是要面向一个完整互联网项目中的团队，我们必须要有不同的知识传授方式。也就是说，只有当我们这群彼此非常了解，各有所长的领域专家通过线下这种比较深入、比较定向和知识体系比较全面的实战分享及案例分析，才有可能让听众和学员的问题可以得到解决，并把获得的方法和方案带回项目中去实践落地。

问题3：数据分析如何伴随企业成长？

对于初创的企业。功能实现及验证是比较紧急和重要的，那数据驱动帮助企业成长，在什么时间开始比较好，也就是说对于一个初创的企业, 数据驱动需要开始有没有什么明显的表现标志。比如UV,PV到什么程度,用户量，到什么程度之类的，或者是，企业利润或销售额达到什么程度。另外，数据分析如何伴随企业成长，有哪些阶段? 有什么企业表现？不同阶段侧重点如何？

创业企业的这个定义首先要决定一下。

所有的创业企业可以分为几种：第一种是纯粹没有什么线上的业务的，第二种是需要有线上业务的，无论是2B还是2C，他们都需要用数据去做决策。我们先谈第二种。一个线上的平台用户量达到了每天几百上千的这样时候，就必须要开始做数据分析了，因为这个时候就会面临着几个比较明确的问题。

第一个是如何从现有的数据里面去判断用户的真实需求是什么，一个是看用户的行为数据具体表现，第二个就是根据成交情况去推断业务到底是否符合用户需要？比方说一个网站或者App当有稳定流量进入时，用户的搜索行为和浏览行为就会变得比较多了。那么站内搜索数据本身就是一种非常明确的信号，来告诉你到底用户想找什么内容或者服务，通过细分分析用户搜索流程，就可以判断你的网站或App是否给用户比较精准内容和服务。

当然关注站内的搜索词，以及监测是否匹配到了相应内容，这是一个非常局部的事情，放到整站来看的话，当你的市场投放开始放开（前提是你验证到了一个需求存在），营销的数据会马上变得急剧膨胀，多渠道的数据分析和营销效果的判断，以及归因分配营销预算和团队资源，以及如设计老拉新或者分销体系，你终归需要去计算的每一种渠道和活动的投资回报，这个时侯如果你的数据埋点和数据整合没有做好，数据仓库和维度建模没有做，字段定义不清楚，基本上市场团队和运营团队是无法有任何条件去做靠谱的营销策划。

我不认为要用利润来决定是否要做数据驱动，因为Facebook和Google一开始也没有实现商业变现，但他们最终成为了价值数千亿美元的企业。

数据驱动本身不决定企业能否马上通过数据分析增加利润，因为互联网企业的特点是创造用户有明显需求但没有很好解决方案的产品，首先还是需要有比较有天分的产品经理，懂得用技术的手段发明出有创新价值的东西，让用户喜欢并开始口碑相传，这个阶段我们叫探索期，这个阶段的数据分析有基本能力就可以了，主要是帮助团队判断用户是否接受并会留下来，所以我们有留存率（回访率）这些基本指标，这个阶段用一些第三方的工具，如友盟、诸葛IO、Growing IO、GA、神策等都可以解决日常流量和事件分析的基本需求。

如果用经典的AARRR模型来看，一个产品在探索期向发展期过渡时，一旦找到激发用户自传播的阶段，马上就面临用户量飞速上升，各种数据需求猛增，研发团队疲于给业务拉报表的阶段，这个时候，第三方的SAAS分析软件除了辅助产品的交互优化和渠道效果分析（抽样时不准）方面，对于业务提升的能力有限，也无法定制实时数据应用需求，如用户群体画像、推荐系统等。

发展期的一个明显特点是当你的业务模式得到探索期的验证，进入快速发展阶段的同时，内部和外部的原因会导致影响核心指标和业务增长的因素明显增多。内部的原因有技术架构和性能上的、有业务部门不断提出的新需求、有产品团队自己通过经验、数据分析和用户研究得出的结论，还有公司管理层从行业发展、竞争格局乃至融资计划本身出发所希望达成的阶段目标。

数据驱动在发展期的作用就是通过数据相关性的发掘，提供企业一个观测用户行为和业务增长的数据框架，并可以给出定量的决策。这些决策不一定是只看利润，更多的时候是要看核心指标的数据增长模型是否有助于撬动规模化的下一步发展，要发现核心行为与什么用户特征密切相关，比如10个月就从0做到2-3千万的平台上，重复发生核心价值的用户行为可能是每天收看xxx时长以上的短视频，或者每天在核心任务上至少完成一次等，这样就可以做到用同样的投入获得最有价值的目标客户，并留住他们。比如Facebook通过数据观测发现的共同的好友这个特征可以激发用户上线的频率和活跃的程度，并通过灰度发布验证统计上的有效性，并迅速全流量放开引发用户量大涨，同时保证稳定的用户留存，就是一个很好的案例。

所以企业需要在发展期开始的时候，就要着手完善数据仓库设计，并通过前端和后端数据埋点的方式，通过设计符合企业实际业务的数据建模、指标设计、字段设计和ETL，洗出完整可以用于数据挖掘的高质量数据，保证可以通过数据产品驱动有效的业务决策。

问题4：如何排除干扰数据，比如一些攻击，刷单刷量？

干扰数据的场景非常多，很难用几句话来描述。

可以把干扰数据的情况总体上分为流量获取本身、产品运营和技术安全等不同领域。

流量获取的阶段要分别从网站、APP的不同特性来说。由于cookie是判断网站流量数据的技术手段，所以攻防双方都会围绕cookie这件事来做处理。比如广告流量产业里比较多的会出现广告主的费用结算（CPC、CPM）与实际获得流量的质量很大程序上取决于双方约定的广告点击有效性，广告平台对于用户识别的定义是基于cookie id，但是这个cookie id本身与广告主的内部系统（比如CRM）识别的唯一用户不一样，所以就必须通过广告主内部系统来做数据整合、去重，并准确计算每个渠道的ROI。

我认识的一家在线旅游企业把对接dsp/媒体投放设计为内部系统和外部系统，内部系统包括产品、运营、维护、报警；外部部系统，包括商务、运营、出价策略、对账结算、产品。内外部系统又分模块和行动路径及重点指标，最核心的问题其实数据驱动产品运营是解决稳定性、时效性和优化效果及减少浪费。

如果是APP的话，问题的技术原因在于APP上没有办法用cookie去追踪数据，而必须用iOS的IDFA和Android的AID来识别唯一性。由于这些ID是可以通过技术重置的，而且可以通过模拟器虚拟出大量的虚拟设备来自动批量完成用户的操作，让运营团队误以为渠道的效果很好。

其他的如或者直接刷单的通过技术手段伪造大量账号，并通过操作这些账号来套平台的补贴（比如淘宝商户）。或者干脆就是人为通过商户和用户的私下约定，共同创造虚拟交易来获得平台的补贴（比如滴滴司机和乘客）。

这些干扰手段由于是系统进行大批量操作，或者人为有规律地操作，在流量特征（比如访问页面类型和深度、时长、地域），或者账号属性（比如有规律的手机号码批量在特定时间集中出现），或者交易特性（比如集中在某个店铺、某些SKU在集中的时间），或者（司机和乘客的行驶里程及交易半径比较固定），都是可以通过数据分析和建模找到规律的，所以都是可以解决的。

问题5：许多时候说数据分析是有目标的，有些数据分析公司甚至可以给客户定制他们想要的目标结果，那对于老板来说，如何避免这些数据陷阱？另外有没有数据分析度的问题？即不要过度，为了分析而分析！过度了之后会怎样？能否给个案例分享一下企业依赖错误的数据分析造成很严重后果的？

数据分析是用来解决业务运营、产品设计和研发资源投入等决策的，所以是手段不是目标。所谓定制目标结果我理解就是定制数据Dashboard，把一些基本经营和业务运营上的指标，通过可视化报表的形式展现出来，这最多也就是数据报告，而不是数据驱动决策。

举个容易理解的例子，如果我们驾驶一辆普通的汽车，数据报告是汽车里的仪表盘，但决定如何开车的还是人，但如果我们驾驶一辆谷歌研制的Waymo自动驾驶汽车，很多时候决定如何行驶的就是计算机系统，人只是在需要的时候介入，这时候Waymo是属于数据驱动决策。

可视化报表的方案有很多，我这里不一一列举了，但是数据驱动决策这件事需要企业自己来动手做，这里面涉及到从数据仓库设计、维度建模、相关性数据挖掘、算法赋能产品运营等不同层面的具体解决方案、流程和工具，对于不熟悉这些领域的企业团队，可以找专家咨询，我自己的企业诺每达科技（E-Bizcamp）也在这些年帮助不少互联网团队实现了数据驱动决策的落地。

对于过度分析这件事，一般我更多的时候看到因不理解数据来源口径、不熟悉业务导致数据报告不能反映真实业务情况的事情，这些事情其实每天都在发生，但不是过度分析，而是“不靠谱”分析，更多的时候是基础的数据产品和数据基础收集工作出了问题。

另外一个方面，我在培养过200多个不同的互联网项目团队后，发现很多企业的开发周期排得很长，研发资源排的很紧，但是却总是听到业务部门觉得技术部门虽然加班辛苦，但产出却看不到，这种抱怨的另一面是业务部门不断和产品团队提出各种需求，双方却无法有效量化业务需求和实际产出之间的数据关系。

举个比较具有代表性的例子：

“某一个电商企业的主域名要由a变为b，所以主力开发团队把很多页面新建到xyz.a，也就是把xyz.b很多页面都处理跳转到xyz.a, 造成营销时使用多域名，而多套网站分析工具都还没来得及做好多域名配置，广告已经早就都投放出去了，而营销团队是后来才知道，事先没有人通知他们。

更糟糕的是在这个过程中，技术团队又把新域名PC站和移动站大部分页面生成了，导致后面需要修补的工作量巨大。苦逼的营销团队和SEO团队需要查明什么弄错弄丢了，第二件事是想办法提交需求给开发处理，最后还要盯着开发团队把需求排期开发并上线。”

如果出现屡次出现这种情况，按照一个企业每年开发上线的节奏来看，估计过了12个月，数据的错误和渠道的业绩统计估计还是会有很大问题，还谈什么数据驱动？

发现这类数据收集和分析方面的问题，找到数据上的问题并解决，直接的效果是可以帮助企业准确计算各个渠道的业绩贡献，让SEO项目获得的流量和业绩可以得以体现，让开发团队付出的努力可以体现在业务报表里。所以，专注做好数据的基础工作很重要。

问题6：您如何看待数据科学人才培养的重要性？

数据科学（英语：Data Science），又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学，统计，模式识别，机器学习，数据可视化，数据仓库，以及高性能计算。

数据科学通过运用各种相关的数据来帮助非专业人士理解问题。数据科学技术可以帮助我们如何正确的处理数据并协助我们在生物，社会科学，人类学等领域进行研究调研。此外，数据科学也对商业竞争有极大的帮助。

最近在筹备DTALK的AI Hackathon的同时，我花了点时间在读“创新者”这本书，书中提到的范内瓦尔·布什Vannevar Bush教授。

布什教授是二战时期美国最伟大的科学家和工程师之一（他也是香农定理发明者香农的老师), 创立了美国科学研究局(OSRD, Office of Scientific Research and Development)，一生中取得的成就不计其数，比如：

发明了检测潜艇的木质前身
造出世界上首台模拟电子计算机
组织和领导了制造第一颗原子弹的著名的“曼哈顿计划”
构想了国家科学基金会（NSF）和高级研究规划署（ARPA）并获批准

还不得不提一下，布什先生在1945年7月号的Alantic Monthly上发表的文章”As We May Think“，其中描述的MEMEX机器就基本具备了超文本、超链接和浏览器的概念，启发了二战后到现在几十年许多计算机领域的技术创造。

Vannevar Bush先生

为什么谈数据科学人才的时候要提一下布什呢？

当然，一般人对基础科研领域的情况知道得不多，但对产业发展更感兴趣。

大家都知道二战后，美国的高科技产业发展，特别是IT产业和技术发展一直是全世界最强，远远超过欧洲的老牌列强。

从创新者这本书的作者艾萨克森的分析来看，美国和欧洲的根本区别是国家发展的科技的体制不一样。

欧洲一直是采取政府主导的方式，有统一的预算和计划，围绕超级精英人才开展科研计划，建造大型实验室。

但美国采取了政府、大学和企业合作的方式来发展IT产业，设计了一个有利于培养大批创新者的环境和体制。具体来说，在布什教授提出“技术移转”的思想三十多年后，美国国会于1980年颁布《拜杜法案》，该法案促使美国大学纷纷设立企业化运作的技术移转机构，进行知识产权的商业化使用，这从根本上奠定了美国技术产业快速发展的核心模式。

IT，或者说信息技术产业是近一个多世纪以来人类文明发展进步速度最快的，而美国两个国内最著名的科技园区（加州的“硅谷”和波士顿128号公路的“高科技走廊”）的诞生都凝结了布什的心血。

我们现在了解熟悉的硅谷，就是一个典型的美国式的科技孵化缩影，放大到全美乃至全球，影响了无数科技产业的创新者。硅谷之父”的弗雷德里克·特曼的导师就是布什教授。

在布什教授推动的科技园区政策中，政府扮演了设计鼓励科技创新政策者的角色，大学提供了大量优质的科研人员、科研成果和具有创新能力的人才，企业则通过商业运作不断把科研成果转化为产品和收入，我们都熟悉的搜索引擎谷歌就是一个非常典型的硅谷创新型企业，从斯坦福校园一步步走向互联网行业巨头，并在重组变成Alphabet后，大力推动AI的技术普及。

我曾经在给不少企业做内部培训时拿谷歌的例子来做分析：

谷歌从技术起步，逐渐甩开微软、雅虎等竞争对手，最终通过海量数据的应用获得在线广告市场份额的绝对老大。

谷歌会根据数据建立模型，自动化优化产品细节，比如：
通过广告竞价排序算法，修正点击率预测模型，找到广告点击率最高的排序模型
通过算法帮助UI自动配色，找到广告点击率最高的配色

另外谷歌通过利用统计学原理设计大量AB测试，在内部解决了大胆构想的实际效果和业务目标，比如：

广告销售团队提出客户想要在广告中展示”Great Customer Service -MOZO”，提出“高光评语”项目
产品团队提出: Yandex改变了URL的显示方式，建议尝试模仿竞对
工程团队提出: 有能力实现关联广告主Google+页面到广告，提出社交广告可能性

这些都通过大量AB测试和数据挖掘分析，帮助公司作出有利于整体业务增长的决策。

谷歌等硅谷企业之所以可以这样做，是因为硅谷的创新机制保证可以吸引全球大量的顶尖人才进行科技和创新的商业性项目。同时，从斯坦福、MIT这样的高校内部出来创业的技术人才可以近距离直接建立与杰出企业家及投资机构的联系，并在技术创新的同时及时根据商业的本质来设计优化产品、获得业务增长。

如果中国的互联网行业以及转型中的传统行业，在今后如果希望可以赶上美国同行的整体水平，就必须在在技术创新体制和人才培养引进上形成良性的循环，特别是在数据科学人才的培养上。

本文由DTALK志愿者林雪婷采访，由DTALK创办人顾青老师回答。

数据驱动是企业迈向AI的基石

相关观点