证析

出版时间:2012-5  出版社:华夏出版社  作者:郑毅  页数:392  字数:400000  
Tag标签:无  

前言

序言:探索知识新边疆拿到郑毅这本《证析》,便爱不释手,一气呵成地读了下来。一方面因为他的观点正是我所想证实与了解的,同时也为他证据充分、文采飞扬的内容所感动。前一段到英国参加万事达董事会,参观战争博物馆时,看到了时任海军大臣的丘吉尔在1912年1月的一张关于英国舰队未来的动力是用本土的煤还是新科技进口的石油为原料的便条,丘吉尔力排众议,有远见的确定石油为动力。这个决策使英国海上力量又称霸了几十年。当时我在想,如果今天的海洋是数据信息,那什么是征服这个数据海洋的“油动力”?人类文明的历史也是知识发现、地域边疆拓展的历史。科技创新在地域疆土的扩张过程中扮演着重要的角色。从西班牙人的三桅船,到英国的蒸汽机动力,地理的扩张随之带来财富的积累,生活质量的提高。人们的世界观也因此发生巨大的变化。大航海使我们知道地球是圆的,天文望远镜、显微镜的发明及一系列理论的创新,使我们认识到了宇宙与微生物,前者使人类感到自己的渺小与“仅有一个地球”的珍贵,后者让我们发现的抗菌素等医药使我们的生命质量得以提高。二十世纪,尤其是二战之后,野蛮殖民,依靠征疆拓土的方式获得财富早已发生变化。五十年代的计算机技术,使人类对数据、信息的存储、处理与理解发生了质的飞跃。从IBM主机的产生,到七十年代个人计算机的出现,社会、企业、个人的生活已经离不开“计算”技术,正如同工业的革命“动力”使人们的体力得以扩张,“计算机”使人们“智力”得以提高。但我们所有过去的“计算”构架,基本上是处理、存储“结构化”的数据(某人、某时完成了某一事件)。这种结构型数据为提高企业的效率起到革命性的作用。同时历史上,这些结构数据的大量积累、沉淀,如同远古的矿藏能源一样,存储了大量的“数据原矿”。九十年代之后,互联网的出现,数据的产生与积累又如火山爆发般的扩大,而文字数据开始变为图片、视频、互动、三维等更大量的形态各异的数据,这些数据的特征是“非结构”,它与事件、社会情绪、天气等诸多不可预测的因素有关。“结构数据”很像牛顿力学,而互联网“非结构数据”则像量子力学。从生物学角度来看,“结构数据”很像人的理性左脑,而“非结构数据”则如同控制我们情绪的右脑。而对世界的认识需要对两种数据的分析。近十年来,计算领域正向从对数据的交易、记录到对数据的分析、比较、提炼、再分析以产生正确认识的过程发展。这个领域正是“证析”。正如此,“大数据”成为近两年计算、投资领域最热门的话题。迅速发展的“云计算”,则为“大数据”提供了规模、便宜的计算平台。对“大数据”分析意义重大。如果个人的智慧以智商为衡量标准,“大数据”的理解与运用是关于企业的“智商”,它的目的是提高企业的决策质量。它的技术基础是通过各种统计、算法,加上前所未有的“云计算”能力。我们对大规模的各种数据进行“冶炼”,从数据中发现关联,发现知识,成为我们对未来判断决策的依据。它的数据基础在于企业、社会的大量积累,它的计算方法则是这些年运用、实践的各种算法,尤其是互联网企业的算法与软件模型,此书都有详细的描述。“大数据”在中国的研究与实践对现代化进程有着重大意义。这个领域在理论与实践均是刚刚起步。如果我们下大力气,从实践到理论,从理论到实践来抓起,有可能在此领域参与、推动甚至领导世界上此行业的发展。我相信数十年后,人类对数据-信息-知识过程的创新,会如同蒸汽机、计算机的诞生一样将是一个重大领域的创新。对建设创新性国家的中国无疑是历史性的机遇。其次,中国现代化中城市化的很多问题,如交通、教育、医疗、社会管理等用传统的方法走不通,或者成本太高,而基于数据的证析可能是解决此类问题的选择。最后,这个领域的发展孕育着巨大的产业机会,随着人类对数据的依赖性不断增加,我们每个人生下来的数据(生理与心理数据)均会被记录下来,我们将有一个“数据银行”,因此,数据加工业,数据工厂等新产业形式将层出不穷。它将带来几十万、上百万新型软件工程师、数据分析师等新的工作与就业机会,中国应有可能在过去几十年成为世界工厂后,在未来几十年成为世界的“数据工厂”。郑毅写这本书的经历是值得尊敬的历程。他曾服务于多家公司。在公司的商业环境不具备合适的研究条件的情况下,他肯于为自己喜欢的证析领域研究付出巨大代价创造条件,长期潜心学习、理解、著学立说。这样的精神在当今商品化、短视与功利化的氛围中尤显可贵。他大量广泛的阅读,认真严谨的索引,并且把技术放在人文、社会的背景下阐述,此书可起到范例作用。多少也印证了他的名字“明心正义”,“士不可以不弘毅”的中国优秀治学传统与理想主义精神。此书不足之处,是对“云计算”与“大数据”这对孪生姐妹的关系剖析未能深入,我期待他下一部书在这方面进一步的探索。中国宽带资本基金董事长 田溯宁博士2012年3月

内容概要

  在前言部分之外,分为上下两编。上编对证析所处的时代背景、证析对传统决策方式的挑战、证析在企业中的应用案例进行介绍;下篇主要从证析对企业的价值,为了发挥证析的价值而在企业组织架构、考核体系、决策流程等方面应有的考虑。

作者简介

郑毅,本科毕业中国科学技术大学,于计算机科学与技术系获理学学士学位,于信息科学与电子工程系获工学学士学位。于中国科学院计算技术研究所获计算机专业工学硕士学位。专业领域为人工智能、数据挖掘,并对复杂系统方向也有长期的兴趣与关注。曾供职于多家软件公司从事商务智能、数据挖掘等方面工作,长期为大型企业提供数据分析、商业咨询等方面服务,具有丰富的接触与分析海量数据的经验,并有丰富的商业领域业务实践经验。作者的教育背景、从业经历以及兴趣范围是本书诞生的基础。本书是作者独立研究的成果。作者申请国家发明专利两项,并有译著出版。

书籍目录

序言
前言
上 编
 第一章 决策的误区
第一节 “理论”和“专家”的误区
第二节 方法的误区
第三节 人的误区
 第二章 实验及其应用
第一节 实验与循证医学
第二节 实验与政策制定
第三节 营销与商业实验
第四节 实验的障碍
第五节 附:实验以及对消费者行为的理解
 第三章 数据及其影响
第一节 数据搜集
第二节 信息流动
第三节 计算及其影响
 ……
下编

章节摘录

版权页:   插图:   什么是证析?“证析”是英文单词“analytics”的中文翻译。Analytics是一个看起来很熟悉的“新词”。它和analysis(分析)很像,从字面上可以推测这个词和数据及分析相关。但我遍查包括《牛津高阶英汉双解词典》、《朗文高阶英汉双解词典》在内的几本流行的英文词典,里面只收录了analysis、analyze、analytical等词条,而没有发现analytics。如果按照英语的构词法,-ics这个词根的意思是“关于……”,中文译成“……学”,例如economics译成经济学,physics译成物理学,mathematics译成数学。以此类推,analytics应译为分析学。然而,analytics不是一门象牙塔里的学问,从一开始analytics就有现实世界的意义,analytics的目的是提升现实世界中决策的质量。简单地说,analytics就是基于证据尤其是数字化证据进行决策的实践,它区别于那些基于经验、直觉、甚至胆识进行的决策。Analytics更多应用于商业领域的决策,和business一道构成business analytics。Thomas Davenport等人对analytics定义“Analytics指的是广泛应用数据、使用统计与量化分析方法、使用描述性与预测性模型以及基于事实的管理方法影响决策和行动的实践Thomas HDavenport,Jeanne GHarris,Competing On Analytics:The New Science of Winning,Harvard Business School Publishing Corporation,2007,p7.中译本:康蓉 吴越译:《数据分析竞争法——企业赢之道》,商务印书馆,2009年。”。《Analytics》杂志给出的analytics定义是“用数学、运筹学、统计学影响商业决策Analytics Magazine网站首页。”。在其产生与发展过程中,大学、研究院所绝不是其唯一的驱动力,其驱动力更多来自业界通过搜集和分析数据以从中获取最大化的价值的努力,业界利用数据指导从产品设计、物流规划到推广营销的一系列决策。如果像经济学简称经济、物理学简称物理一样,analytics应该译成分析。SAS、IBM、Google等跨国企业所提供的产品与服务中也都将analytics译成“分析”。然而,这很难不产生混淆,analytics经常应用于商业领域,将analytics译成“分析”会将business analysis和business analytics两个差别很大的领域都称为“业务分析”。Business analysis是“分析业务领域的结构、过程和问题,并向解决方案提供者呈现业务需求Howard Podeswa,The Business Analyst's Handbook,Course Technology PTR,2009,p297.”。在IT领域,business analysis的目的主要是分析与获取IT系统的需求,其结果可能是获取诸如“所有使用者都能远程无线登录客户关系管理系统”这样的需求。虽然定量数据对于获取这样需求有所帮助,但它不是必要条件。这样的需求不一定是以数据为基础的,要得到这样的需求不一定会用到数学或统计学的分析手段。同时,“分析”已经变成一个意义很宽泛的常用词,例如时政分析、电影人物分析、精神分析中的分析都符合“把一件事物、一种现象、一个概念分成较简单的组成部分,找出这些部分的本质属性和彼此之间的关系(跟‘综合’相对)现代汉语词典。”的定义,但都不是以数据为基础、不是以数学、统计学为主要手段进行的分析。虽然用数据支持决策已经有很长的历史,但数据介入决策所能达到的深度、广度以及所具备的潜力却是前所未有的。技术的发展使得计算资源变得更加丰富、便利和便宜,从而使得数据搜集的能力、数据存储的能力以及数据处理的能力极大地丰富,为analytics的普及提供了技术的基础。数学、统计学、计算机科学的发展使得人们能够运用更加复杂的数学模型与算法分析数据,丰富了analytics分析数据的手段。而哲学、经济学、管理学、社会学、心理学的发展使得理性在决策中占据越来越重要的地位,这些学科的发展为analytics提供了思想与理论的准备。商业与贸易的全球化使得大型企业生产、运营、物流等流程的复杂程度超出了人类直觉所能掌控的范围,通信手段的发达使得一对一的沟通与个性化生产成为可能这也要求企业能够利用自动化的机器决策在大量低价值交易中获利,商业需求为analytics的成长提供了土壤。2008年起IBM等跨国公司开始在analytics的名义下重新组织或完善自己的产品线。以Analytics为名的杂志也于2008年开始发行,大学也开始授予analytics的理学硕士学位。Analytics是本书的主题,是学科和时代发展到现阶段的新产物,正如英语中使用一个偏僻的单词analytics以和analysis区分一样,本书为了行文方便也自创就我目前所掌握的信息,analytics在汉语中没有统一的译名。它经常被直接翻译成“分析”,例如IBM公司新成立了一条服务产品线叫做Business Analytics and Optimization,中文名字是“业务分析及优化”;SAS公司的analytics解决方案的中文网站上的名字是“分析挖掘技术”;Google的产品Google Analytics的中文网站将该产品称为“Google Analytics(分析)”。本人暂时还未看到有关analytics的中文原创图书出版,也许本书将是一个首创。而引进的有关analytics的英文图书中anlytics也没有一个合适的翻译,以Competing on Analytics一书为例,中国大陆出版的简体中文版《数据分析竞争法:企业赢之道》由吴越翻译,商务印书馆2009年出版,书中将analytics根据行文方便译成“数据分析法”、“数据分析”和“分析”。该书在中国台北出版的繁体中文版书名为《魔鬼都在数据里》由胡玮珊译,书中将analytics根据不同语境译成“分析”、“分析竞争力”以及“检视分析法”。该书的日文版书名为《分析力を武器とする企業強さを支える新しい戦略の科学》,将analytics翻译成“分析力”。如前所述,“分析”这个译法无法和其他语境下analysis的翻译相区分,而其他翻译方法要么显得太学术化、要么显得太累赘。因为analytics一词是本书的核心,所以这里花一定篇幅讨论这个词应该怎么翻译。本文行文过程中,在不引起混淆的地方仍然沿用“分析”一词,例如“数据分析”,而用“证析”一词特指以对数字的分析为主要特点的方法、项目以及思想。并且,将从事证析工作的人也称作“分析师”而不是“证析师”。一个汉语词汇“证析”特别指代最近兴起的analytics实践。证,是证据的证,这个证据更多强调的是定量的证据,也就是数据;析,仍然是分析的析,“析万物之理”,分析数据以产生新的洞察,据此影响决策,从而提升绩效。证析就是指代对量化证据进行分析以影响决策的实践。当人们想到使用数据指导商业决策时,往往过于强调证析中“析”的一面,强调使用数理统计模型、数据挖掘工具等数学手段分析数据,这是一个相对被动的过程。在证析中“证”的一面同样重要,也就是需要主动地搜集数据、搜集证据以指导决策。并且,“分析”一词中的“分”字强调分解的手段,强调还原论的方法论。而在证析的具体实践中,采用还原论还是整体论的方法论并不重要,重要的是寻找到能够指导决策的、证明什么样的做法是有效的证据。如就其技术与实践的渊源而论,业务证析(Business Analytics)和商业智能(Business Intelligence)之间存在着密切的联系,很多从事业务证析工作的团队目前仍隶属于公司的商业智能团队。根据《数据库系统百科全书》的商业智能词条给出的定义“确切地说,它(商业智能)指的是一组工具和技术,这组工具和技术使得企业能够将其业务数据转换成决策流程中所需的及时、准确的信息,它将信息以合适的形式传递给合适的人。……从体系架构的观点看,商业智能系统的核心是以一致的、整合的形式储存企业历史数据的数据仓库Ling Liu,M.Tamer zsu (Eds.),Encyclopedia of Database Systems,Springer,2009,p288。另外,Business Intelligence仿照Artificial Intelligence译成“人工智能”而约定俗成的译为商业智能或者商务智能。Business Intelligence一词首次于出现在1958年H.P.Luhn题为“A Business Intelligence System” (H.P.Luhn,A Business Intelligence System,IBM Journal,October,1958,p314-319)的文章中。文中Luhn给Intelligence更为宽泛的定义,“理解现有事实之间的关系从而指导行动以达成特定目标的能力”。可以看出,在Luhn的定义中并没有一味强调技术手段的重要性,与刚刚诞生两年的Artificial Intelligence之间没有必然的联系。在此定义下的intelligence中“智能”的含义并不那么突出,其含义更接近intelligence的另外一种翻译“情报”。然而,与商业智能的强调技术手段和工具不同,业务证析强调的不是技术手段而是强调用技术手段解决业务问题。传统的商业智能包括诸如从业务系统中抽取数据、将数据以合理的方式组织与存储在数据仓库、及制作报表等工作。虽然这些工作为业务证析提供了重要数据支撑,但这些工作绝不是业务证析的全部,业务证析需要利用商业智能系统中所搜集的数据进行数学建模与分析以支撑业务决策。并且,业务证析的数据来源也不限于数据仓库。例如为测试店面中不同的货品摆放方式对营业额的影响,一家连锁超市开展了一次实验,并用实验的数据设计出最佳的货品摆放方式。这是一个业务证析的过程,但这个业务证析过程中数据的产生、搜集以及分析都不必经过数据仓库。证析和数据挖掘之间也存在区别。首先,数据挖掘是“从大量数据中抽取或挖掘知识的过程”Jiawei Han,Micheline Kamber,Data Mining:Concepts and Techniques,second edition,Elsevier Inc.,2006,p5.。数据挖掘是业务证析的重要技术手段,但并不是唯一的技术手段。例如上面例子提到的这次实验,用到的技术手段就是统计学中的实验设计与分析,它处理的数据点只有几十个而不是数据挖掘的定义中所提到的大量数据。除数据挖掘之外,模拟仿真、数学优化等工具也是加工数据、产生洞察的重要技术手段。其次,数据挖掘是一种二手数据分析(secondary data analysis)的手段,它对已有的数据进行分析,通常从事数据挖掘的人不会直接参与到数据搜集的过程中David Hand,Heikki Mannila,Padhraic Smyth,Principles of Data Mining,MIT,2001,p132.。而这个例子中,业务证析的工作也包括设计数据采集方案并采集数据等工作。有时业务证析在为决策提供支撑时遇到的最大困难是如何设计有效的度量方法,例如,如何度量广告对销售的刺激效果、如何度量服务改善对客户满意度的提升等,一旦设计了合适的数据采集方式,业务证析的工作也完成了一半。所以,从这个角度讲,业务证析的工作比数据挖掘的工作更加主动,它会主动参与数据搜集方案的设计以及分析结果应用等工作。最后,数据挖掘可能会探索复杂的分析技术,但业务证析不是以技术复杂性为目的,业务证析的目的是提升决策质量。无论技术是否复杂,只要能分析数据、提升决策质量就是对业务证析有用的技术手段。数据挖掘是一项应用技术,随着业务证析应用于新的业务领域、新数据的出现以及新的业务需求的出现,也需要数据挖掘不断发展技术、拓展其应用领域。在前几年,数据挖掘曾热极一时,但经过一段时间的实践发现,虽然数据挖掘能解决很多问题,但并不如厂商所鼓吹的那样包办一切,而有时为了分析数据也不一定需要数据挖掘这个技术手段。在这种背景下,厂商与企业开始关注以解决问题为出发点的业务证析Google趋势(trends.google.com)是google提供的一项服务,可以获取不同关键词的查询量。从Google趋势中可以看出,人们对于data mining的关注在一直平稳下降,而2006年起人们对于analytics一词的关注持续上升,2011年人们对于analytics一词的关注度是对data mining一词关注度的15倍以上。这里需再次强调,判断是否是采用证析的方法解决业务问题不是以所采用的数学分析手段是否足够高级、足够复杂为依据。例如,为监控员工的满意度,微软公司2006年申请了一项专利技术,利用这项专利技术计算机可以监控员工的血压、心跳、甚至面部表情。当复杂的数据监控与分析结果表明员工的挫折感很强时,系统会发出警报,也就是部门的主管该采取一些措施提升士气了。当然,这属于业务证析的范畴,因为它能利用数据帮助企业及时发现员工中存在的问题,并能及时做出干预,不过它的实现极为复杂,并耗资不菲Stephen Baker,Numerati,Marine Books,2008,p19.。为了对员工的满意度进行分析,还有另外的做法。有一家公司给每一位员工发了一袋玻璃球,这些球有红色、黄色、蓝色。员工每天下班时根据自己今天的情绪是高兴、一般或沮丧,向本部门的瓶子里投入一颗红球、黄球或蓝球。第二天早上,公司总经理通过统计每个部门瓶子里不同颜色球的个数来分析员工的情绪如何,如果统计显示某部门的瓶子中蓝球突然增多,也就是昨天员工情绪不太好,则提醒总经理要采取什么措施了。它的分析很简单,简单到用一张纸和一支笔就能完成例子转引自Mark Graham Brown著,谢军容译,《超越平衡计分卡:利用分析型指标提高商业智慧》,中国财政经济出版社,2010;成本也很低廉,几百块钱就能实现。但是,它也属于业务证析的范畴,因为它也是搜集量化证据(每个瓶子里不同颜色的球的个数),对量化数据进行分析并影响决策的过程。虽然本书对于如此简单的业务证析讨论得不多,但这里还是要强调复杂并不是业务证析的特征和目的。同样,并非所有利用数据指导决策的实践都是业务证析。想象下面的情况,你和你的合伙人午餐期间正在为是否投资于一个项目争得面红耳赤。最终,你们决定用一个古老的方式解决争执。你从餐桌的牙签筒里随手抽出一把牙签,并约定如果这把牙签是奇数支,你们就投资于这个项目,否则就此罢休。虽然这也是用数据(牙签的数量)影响决策(是否投资项目),但读者能看出这种方法和占卜求签并无二致,肯定也没有人反对不将其列入业务证析的范畴。有些决策虽然看似是以数据为基础做出的,但它们并不能被称为业务证析,因为所谓的数据和分析只是为主观臆断披上一层科学的外衣,不过这层皇帝的新装并不像上面这个例子中数牙签做决策那样容易让人识破。如果希望给出关于证析的一个清晰界限很可能会进入形而上学的讨论中,所以本书只会通过一些例子或议论说明证析是什么不是什么,而不会给出一个结论性的封闭定义。Harrah’s一个案例下面将以一个公司的实践为例解释什么是业务证析。Gary Loveman,1989年在美国顶尖学府麻省理工学院(MIT)获得经济学博士学位。和现在相比,Gary Loveman读书时所能获得的数据十分有限,他认为当时摆弄的数学只是象牙塔里学究们出于个人兴趣的消遣,而对真实世界的决策没有帮助,这让他一度感到不满甚至沮丧Michael Schrage,“Q&A:The Experimenter”,Technology Review Website,posted February 18,2011,http://www.technologyreview.com/business/32351.。毕业后,他也和很多博士一样在大学谋得一个教职,在哈佛大学商学院任教授。1994年他在《哈佛商业评论》上发表的一篇有关客户服务的文章James L.Heskett,Thomas O.Jones,Gary W.Loveman,W.Earl Sasser,Jr.,and Leonard A.Schlesinger,“Putting the Service-Profit Chain to Work”,Harvard Business Review,March-April,1994,p164-174.引起商业界的广泛关注。很多公司向他伸出了橄榄枝,他最终于1997年接受了主营赌场业务的Harrah’s Entertainment的邀请,担任该公司首席运营官。当时他只准备待两年,为此请了两年学术假期。但实际情况是他运营Harrah’s之后就一发而不可收,再没有返回哈佛大学而是在Harrah’s一直待下来,并于2003年接任该公司的首席执行官,任职至今。教授运营的赌场,注定成为博彩业中的异数。当时拉斯维加斯的其他赌场都投巨资于一些动人心魄的炫目表演招徕顾客。而顾客对于Harrah’s的优质服务印象更深,这归功于Loveman的使用数学运营赌场的新理念。为增加客户忠诚度,Harrah’s使用数据库营销技术以及基于分析的科学决策来拉开和竞争对手之间的距离。他们深入分析客户的数据,开展各种实验,并用分析与实验的结果指导营销与服务,为顾客提供符合他们需求的服务。和航空公司流行的做法一样,Harrah’s也推行了一套名为“完全回馈”(最初称作Total Gold,后改称Total Reward)的会员卡制度。会员卡分三个等级:金卡、白金卡、钻石卡。顾客在Harrah’s随时随刻都要用到会员卡:停车、玩老虎机、用餐、住宿。会员卡搜集了大量客户信息,使得Harrah’s不仅知道顾客的年龄、性别、家庭住址,还知道顾客喜欢玩二十一点还是老虎机,玩了多长时间,多久来一次赌场,在赌场内如何用餐,是否过夜等信息Gary Loveman,“Diamond in the Data Mine”,Harvard Business Review,May,2003,p109-113.。到2010年,Harrah’s已积累超过4000万会员的信息,这是博彩业最大的客户数据库Karl Taro Greenfeld,“How to Survive in Vegas”,Bloomberg Businessweek,August9-August15,2010,p70-75.。传统市场营销中的市场战略制定与数据库营销是两个割裂的流程,往往首先制定了宏观的市场策略,然后利用数据库营销等手段配合完成市场策略的实施。然而,Harrah’s与之不同,数据分析已成为Harrah’s整个运营流程中的一部分,他们会用数据指导市场策略的制定。通过对会员卡数据及调研数据的研究发现,客户用于赌场娱乐的消费中只有36%花在Harrah’s,其他钱都花在别的赌场。这对Harrah’s意味着机会,Harrah’s将市场策略建立在提高客户的忠诚度上面,让客户尽可能多地在Harrah’s消费。为提高客户忠诚度,Harrah’s首先要弄清楚究竟是哪些人在Harrah’s消费。数据表明26%的客户贡献了82%的收入。然而,出人意料的是,这部分顾客并不是大多数赌场一直在争取的那些金领豪客,而是包括教师、医生、银行职员、技师在内的中产阶级的中老年顾客,他们有足够的时间和收入来玩一把。和那些豪客不同,他们的赌博风格并不是一掷千金,而更喜欢在那些一晚上只有几十到几百美元输赢的老虎机上消磨时间。数据告诉Harrah’s,这些客户很少在赌场过夜,他们都是下班的路上或者周末过来玩玩。并且,数据还告诉Harrah’s60美元的筹码更能取悦这部分客户,而他们对于30美元的筹码外加一晚免费住宿以及免费的两顿大餐不是那么感兴趣,明显前者的成本会更低一些。为了赢得顾客的忠诚,Harrah’s通过对顾客的消费模式的分析,利用复杂的量化模型计算出顾客的长期价值(customer worth)——关注一个顾客理论上长期会在Harrah’s总共消费多少,而不只关注某一晚上顾客的消费。Harrah’s的市场策略是尽量让顾客有更好的体验。系统能根据顾客的背景资料及历史的消费模式计算出顾客的痛苦点(pain point)——如果他输钱超过痛苦点,今晚的赌博会成为一个痛苦的回忆,离开Harrah’s后一去不返。例如,Shelly,34岁,白人女性,来自中产阶级街区,喜欢玩老虎机。系统预测她一晚赌博的痛苦点是输900美元。如果系统发现Shelly马上就要输到900美元,这时Harrah’s会派出一位幸运大使(luck ambassador)将她从老虎机前劝走。幸运大使将告诉Shelly “看来你今天在老虎机上的运气不太好,是时候去餐厅大餐一顿了。送你一张20美元代金券,一小时内有效。”Shelly虽然输了钱,但回忆起来,这一晚的经历还不是太糟,至少还有免费晚餐可以享用,她以后有机会还会再次拜访Harrah’s。所以,Harrah’s对数据的利用已经不是简单的汇总数据,也不只是对数据进行动作迟缓的事后分析,已能实时收集数据、实时分析数据,并对顾客的行为实时做出反应。Harrah’s对数据的实时分析与应用在赌场运营的方方面面都有所体现。老虎机是赌场的一个热门项目,有的顾客为了能玩上老虎机甘愿排队。在排队期间,顾客很可能等得不耐烦而离开。更为重要的是,顾客在排队期间是不消费的,不带来任何利润。当某个老虎机排队人太多时,Harrah’s会开放某些其他区域的老虎机,这些老虎机会有一些优惠政策,并把信息通知到排队的顾客。随着证析能力的发展,Harrah’s将对数据的分析拓展到包括人力资源管理在内的企业内部运营方方面面。例如,Harrah’s的经理会统计员工在面对顾客时微笑的次数,因为经过分析发现微笑次数和顾客满意度极为相关。Harrah’s还能通过建立数学模型计算每张赌桌或其他客户接触点所需员工数量,从而将适量的具有合适技能的员工分配到相应岗位上。Harrah’s经分析还发现由快乐健康的员工为顾客提供服务能够带来更高的客户满意度,据此他们更加关注员工的健康福利计划。Harrah’s还能量化评估健康和福利计划对员工的敬业程度和财务绩效的影响。他们敦促更多的员工定期去企业自办诊所接受预防性体检与医疗服务,这项措施降低了企业在紧急医疗救护所花费的成本,在一年时间内为企业节约了数百万美元Thomas H.Davenport,Jeanne Harris,Jeremy Shapiro,“Competing on Talent Analytics”,Harvard Business Review,October 2010,p53-58.。Harrah’s在客户服务方面所取得的进步与Gary Loveman推行的一切从事实出发的企业文化分不开。如果一位主管在他面前说“我认为……”,这位主管要倒霉了。Harrah’s已经搜集到足够的客户信息,所有员工所做出的决策与建议都应从数据出发,应该是“我知道……”,而不是简单地从个人猜测出发的“我认为……”。David O.Becker,“Gambling on Customers”,the McKinsey Quarterly,2003 Number2,p46-59.并且,Gary Loveman要求公司在每推出一项新的吸引客户的方案前,先通过小规模的实验以验证方案的合理性,之后才能在整个公司范围内推广。如果哪位主管未经实验验证就上马新方案,则很可能职位不保,因为在Harrah’s员工可能被开除的理由有三:“偷窃,调戏妇女,或没有实行有控制组的实验”。为了用数字支撑决策,Harrah’s每年在信息系统上的投资超过1亿美元,其核心是坐落于拉斯维加斯公司总部的数据库服务器,在这里公司的IT部门和市场部门并肩工作。这一切投入都物有所值,在Gary Loveman的带领下,Harrah’s从拥有15家赌场的地方性企业成长为拥有美国本土39家赌场、13家海外赌场的全球性企业。并且Harrah’s的收入连续5年保持两位数的增长,到2008年收入达89亿美元,成长为全球最大的博彩公司Harrahs网站,http://investor.harrahs.com.。证析所包括的内容从Harrah’s的例子可以看到,证析的目的是使用数学手段、利用客观证据影响业务决策,在实践过程中它可能会涉及企业管理、数学与统计学、计算机科学与技术等诸多领域的知识与技能。下面对证析过程中可能用到的技能、所需进行的工作按顺序进行一个不完全的简单罗列,将其分为十四项:一、需求分析:证析是为解决业务问题、提升业务决策服务的,所以分析师需理解业务人员的问题与需求是什么,需理解业务人员所处的业务背景、通用的业务术语、所面临的挑战、不足及痛点。需求分析不仅仅是证析项目需要完成的工作,它是任何项目的起点。然而,不能单纯从客户说了什么把握业务需求。这里可以借用其他领域需求分析中的一个例子,客户在表述需求时可能说“我们需要一种收割机,它在收割西红柿时不会弄破西红柿的皮”。但“厚皮西红柿”这个解决方案,而不是客户提到的特种收割机将能更有效地解决客户面临的问题。当很多人强调分析师应该“以客户为中心”时,更好的提法应是“以客户的价值为中心”,分析师应该考虑客户(即决策者)如何实现其价值,而不应囿于客户说了什么。客户的价值以及由此决定的客户需求限定了项目的范围,为整个证析项目提供了基准。另一方面,需求分析作为证析起点的特性决定了证析不是一门象牙塔内的纯粹科学,它存在的目的是为了解决现实生活中的问题。二、决策流程分析:企业通过其价值链实现客户价值,企业为实现企业价值、获取利润需优化价值链中各环节的决策。提升嵌入于企业业务流程的决策流程的决策效果是证析项目的主要目标。如不能从流程的观点考虑问题,证析将只能提供一些相互割裂的独立应用与优化,这些优化为局部的目标服务,只能达到局部优化的目的,甚至这些局部优化的结果是以损害其他环节的绩效或损害全局绩效为代价的。而如能以流程的观点考虑问题,证析只是流程中一些黑盒子,是整合在全部流程的一部分。无论有没有高深的数学算法与统计模型整个业务流程都能运转,而当有更好的、经过验证的算法出现并融入流程时,整个流程的绩效得到提升。所以,当很多企业跃跃欲试希望规划证析能力演进路线图时,更好的做法是不去规划独立的证析演进路线图,而是规划包含证析在内的整个企业演进路线图这也是著名的物流公司UPS的态度,UPS的工业工程(Industrial Engineering)副总裁,Chuck Holland曾经在一篇文章中提到“UPS没有运作管理路线图,UPS有包含运作管理在内的(企业)路线图”。Chuck Holland,“A near-death experience”,Analytics January/February,2011,p4-5。三、数据管理:数据的极大丰富是当前社会的重要特征,据IDC的一份调研报告显示全球数据量在以每五年十倍的速度快速增长。据另一份报告估计,2010年全球所产生的数据量相当于人类历史上所产生所有数据之和。数据的极大丰富是证析在当前日益受到关注与普及的基础。数据的来源多种多样。随着企业信息化进程中计算机系统逐步深入渗透到企业的业务运营流程中,企业运营系统自然而然地产生了大量的电子化数据。为记录和保存这些运营数据,很多企业建立了数据仓库系统。与运营系统中的数据库系统关注及时可靠地处理各种交易数据的目的不同,数据仓库系统更加关注对海量历史数据的保存、处理与分析。并且,随着RFID等感知技术的价格迅速下降与日益普及,企业有机会对企业运营中各个环节施以更加精细的监控,这将进一步增加企业所能获取的数据量。除企业运营系统所产生的数据外,企业还有很多其他途径获得有助于提升决策质量的数据。例如,随着互联网的普及,人们喜欢在博客、微博、Facebook发表各种意见,很多企业开始搜集与分析这些社会媒体上的大众意见,据此及时指导产品设计与营销方案设计。另外,企业有机会从其他机构获取有价值的数据,例如,美国的Acxiom公司的数据库中保存和汇编了美国超过两亿成年人在购物和生活方式方方面面的相关数据,这些数据来自美国最大的连锁超市、运营商等机构,Acxiom利用这些数据为它的合作伙伴提供服务。随着数据源的丰富,企业的数据管理工作面临着更艰巨的挑战,这里列举几个例子。例如,传统的数据库技术更擅长于处理结构化数据,数据库中某个数字代表收入还是用户数有明确的意义。来自互联网的信息大多是以文本、网页、图像、视频等形式出现。如何获取和管理对这些半结构化或非结构化数据的描述,也就是元数据(metadata,描述数据的数据)的管理将是企业的数据管理面临的一个挑战。又如,假设连锁超市内部以会员卡号码作为客户的唯一标识维护着客户资料,超市通过交换或购买等方式从外部获取了一批数据以丰富对客户的描述、加深对客户的理解,但外部获取的数据肯定不含有会员卡号码,如何将这些不同来源的客户数据整合(CDI consumer data integration)在一起,也是数据管理面临的一个挑战。再如,一家银行可能通过包括信用卡机构、银行卡发卡机构、保险销售部、柜台、网站在内的多个渠道和客户保持接触、获取客户的地址,客户可能在其中任何一个渠道变更通信地址,在各个孤立的信息系统中可能维护着有关客户地址的不同版本,如何在不同的渠道维护有关客户重要信息的唯一版本,也就是如何进行主数据管理(MDM master data management)也是数据管理需要面对的一个问题。另外,即使对于意义相同的数据,例如企业财务报表,不同企业或同一企业的不同机构都可能以不同的格式表示,如何制定标准以方便数据在不同的机构与系统之间的交换也是数据管理工作中需解决的一个问题。还有,因为很多分析都是由业务人员所发起的,分析的目的是为了应对环境的变化,因为环境的变化不可预知,分析的需求也难以事先设定。如何使得业务人员能够方便灵活地获取所需粒度的数据进行即席分析(ad-hoc)是数据管理中所需面临的另一个问题。最后,因为数据中包含着很多涉及企业和客户的敏感信息,如何在方便数据访问的同时控制访问者的数据访问权限也是一个不容忽视的问题。从各个来源抽取与搜集数据、建立数据仓库、管理数据是证析项目的基础和重要组成部分,并且这部分工作动辄需要购买昂贵的软硬件系统、占用大量投资。但技术驱动的数据管理工作不应是证析项目的起点,不应以数据驱动证析项目的进程,而应以业务问题驱动证析项目的发展。并且,证析项目和数据仓库项目的区别在于证析项目中的分析师需要从业务需求出发,通过主动寻找新的数据来源、设计更好的人机交互方式、设计实验等方式更加主动地搜集数据,以获取为支撑决策所需的数据与证据,它不是一个纯粹的信息系统建设项目。四、度量:数据是度量的基础,但数据不等同于度量,例如“某省的GDP是2万亿元人民币”只描述了一个事实。根据这个数字不能判断该省经济发展是否良好,和去年比是否有增长,是否完成了当年的目标。度量除了数字之外还需要知道这个数字的含义是什么,所处的语境是什么。度量在证析中占有重要的地位,甚至有些人将证析(analytics)等同于度量,例如,在Google Analytics 认为“证析(analytics)是生成度量的软件程序Jerri Ledford,Joe Teixeira,Mary E.Tyler,Google Analytics,Third Edition,Wiley Publishing Inc.,2010,p10.”。人们将没有度量指标的企业管理比喻成没有仪表盘驾驶的飞机。度量指标不仅仅描述了企业运行的状况,也指引着企业运行的目标与方向。正如法国总统萨科奇所说“我坚信:除非我们改变度量经济绩效的方法,否则我们不会改变自身的行为。Joseph E.Stiglitz,Amartya Sen,Jean-Paul Fitoussi,Mismeasuring Our Lives:Why GDP Doesn’t Add Up,New Press,2010,Forwarded by Nicolas Sarkozy,p1.中译本:阮江平 王海昉译:《对我们生活的误测——为什么GDP增长不等于社会进步》,新华出版社,2011。”度量影响着企业中人们行为的方式和目标,错误的度量方式将导致错误的行为,将企业引入错误的轨道与方向。例如前苏联以出厂汽车的重量度量汽车厂的生产绩效,这导致苏联引进的菲亚特汽车生产线所生产的汽车比意大利同款汽车要多出不必要的20%的重量戈登•塔洛克著,柏克 郑景胜译,《官僚体制的政治》,商务印书馆,2010。一方面,度量指标决定了证析项目所需要优化的决策的目标,有缺陷的度量指标有可能导致偏颇、歪曲、有缺陷的结论。正确的度量是成功的证析项目的基础。另一方面,作为企业内部量化沟通的重要手段,度量指标是证析影响企业各个层次决策的有利工具。发现并实施新的、有洞察力的、合理的度量指标是证析项目的重要工作。有些分析师希望设计一些综合性的指标来表示企业“总体”运行状况。想象一下,汽车的仪表盘上显示车速为每小时80公里,显示油箱剩余油量能够继续行驶400公里,独立的两个指标分别都有清晰而重要的意义,驾驶员希望获得这两个数值。但如果将二者相加得到的480公里这个数没有任何意义。所以这里需要提醒一点,证析项目中如果不是出于必要,应努力避免使用复杂的数学手段以炫技为目的设计度量指标,否则将丧失指标的清晰性,让业务人员很难以此进行沟通,并且不知如何决策与行动来影响指标。然而,这里并不是说数学工具在度量指标设计的时候没有用武之地。相反,它是指标设计的重要手段,其中一个重要的应用就是发现驱动业务结果的领先指标。这里可以做一个比喻,例如,交警部门希望降低交通事故发生频次。然而,这里交通事故发生次数是一个结果指标。交警发现造成交通事故的一个重要原因是司机酒后驾车,通过降低酒后驾车司机人数这个领先指标来降低交通事故发生频次这个结果指标。而分析师希望通过对数据的分析找到驱动诸如企业收入增长这些结果指标的领先指标是什么。随着时间的推移,驱动企业增长的动力是不断变化的,与之对应的领先指标也是不断变化的,分析师需要不断探测到这些变化以增加企业竞争力。在需求分析阶段,分析师只能定性的确定项目的范围和目标。在获得了企业运营数据以及企业现状的度量之后,分析师有可能制定诸如“成本削减10%”这样量化的项目目标。五、探索性数据分析与数据可视化:在数据的分析和处理过程中,人类的模式识别能力仍然占有重要的地位。人们能够通过从不同角度摆弄数据,由高层次的汇总数据“下钻”到低层次的细节数据等手段发现数据中存在的模式或异常。通过数据探索,人们能够得到对数据以及业务运行状况的初步印象与假设,虽然这些假设还需要进一步推敲,但它能指引人们应进一步搜集与分析什么样的数据,选择什么样的统计工具或技术验证与推翻这些假设。图形以及表格是有效组织数据、协助研究人员对数据进行探索的重要手段。在科学研究的历史上,门捷列夫发明的元素周期表改变了化学家的思维方式,导致了新元素的发现。天文学家发明的对星体分类的“光谱—亮度图”促成了中子星的发现。通过图形或表格的方式有效地组织数据也能够帮助商业领域的业务人员有效地发现新问题、发现解决问题的新方法有关数据可视化、信息可视化可参见Stephen Few,Edward R.Tufte等人的著作。包括:Stephen Few,Information Dashboard Design,O’Reilly,2006。Edward R.Tufte,Visual Explanations:Images and Quantatives,Evidence and Narrative,Graphics Press,1997。随着个人电脑运算能力的增强及计算机图形学的发展,计算机科学家提供的各种数据可视化软件使得分析师能够更方便地、以更加丰富的形式探索数据。数据可视化不仅用于探索性数据分析,也是传递分析结论的重要手段。可视化的方式能够使得分析师有效地将分析结论传递给消费数据的人,与之高效沟通。仪表盘(dashboard)是数据的可视化表示与沟通的重要手段,有很多软件厂商能够提供工具帮助分析师方便地开发仪表盘。更加注重设计的信息图(InfoGraphics)也开始逐渐流行。包括《华盛顿邮报》(Washing Post)、《彭博社商业周刊》(Bloomberg Businessweek)在内的传统媒体已经开始大量使用信息图等形式向读者传递数字信息与结论。在证析项目中,设计图表、仪表盘或者信息图向业务人员传递分析结论、绩效指标等信息需要分析师不仅对数字有深刻理解,还需要具备一定的审美与设计能力。六、提出假设,发现模型、关联与模式:为了获得对世界的认识并对环境施加控制,人们在决策前希望发现外部世界存在的模式并做出关于环境的假设。这些假设可能来自人们的经验与直觉,可能来自基于已有知识的演绎,也可能来自探索性数据分析或对图表解读过程中形成的认识。在证析项目中的以“如果……那么……”假想性陈述方式表达的假设应该是可证伪的。例如“如果你足够认真工作,那么你就能得到提升”这样的假设就不属于可证伪的表述。因为某人如果努力工作却未得到提升,我们可能会说他没有“足够”努力工作,即无论发生什么结果仿佛都与这条假设不悖,故是不可证伪的Anne Myers,Christine H.Hansen,Experimental Psychology,5th Edition,Wadsworth,2002.中译本:于国庆等译,《实验心理学》,江苏教育出版社,2006,p99-108。现在很多所谓的管理大师所鼓吹的方案都是以不能证伪的方式表述的,假设是否可证伪是证析的方法与点子大王、励志大师式的管理大师的方法之间最重要的区别。假设是否可证伪也是划分是盲从权威与教条还是独立思考进行无止境地探索的两种态度的分野。形成假设需要分析师或业务人员很强的能力,产生富有成效的新的假设是新的洞察、新的发现的开始,这是整个证析过程中极为困难的一个环节。然而,随着海量数据的出现,“假设驱动”这种传统的研究方法受到了挑战,有人认为传统的假设没有足够的能力描述海量数据中蕴含的外界环境中存在的复杂关系生物学与医学研究中,假设驱动(Robert Weinberg,“Point:Hypotheses first”)以及数据驱动(Todd Golub,“Counterpoint:Data first”)的不同观点争论可以参见 Nature,April 1,2010,p678-679。以数据挖掘和模式识别为代表的在海量数据中自动发现关系和模式的机械化数据处理工具为人们分析海量数据提供了可能。这些关系和模式可能是以算法或计算机语言的形式储存在计算机中,而不以传统的假设中所使用的自然语言、数学语言及其他形式化语言显式表现。商业领域的一些特性也决定了以数据驱动利用数据挖掘算法机械化的数据分析和模式识别有其独特的优势。随着企业信息化程度的深入,计算机深入企业业务运营的各个领域,海量的电子化记录是企业运营流程信息化自然而然的副产物。为了优化流程中的决策,证析需要分析海量数据,并以此为依据改善大量日常的重复性决策。但很多决策的获利十分微小,不足以投入相对昂贵的人力为其按照传统的科学研究方法提出专门的假设并作出相应的改善,这造成了决策量与人力之间的矛盾。另外,科学研究的数据是相对公开的,所有人都有机会分析这些数据。而企业的数据是私有的,只有企业内部及企业合作伙伴中少数人有机会接触到这些数据,这进一步增加了业务证析工作中人力的限制。机械化的方法可以弥补人力的不足。这正如福特的自动化与生产线改变了二十世纪传统的由手艺人手工地、缓慢地打造汽车的生产方式,机械化的方法也将改变人们传统的知识生产方式。并且,自然科学的规律相对稳定,例如牛顿三大定律放之四海而皆准,亘古不变。商业领域中很多问题涉及对人、对社会的理解和建模,这些规律没有自然科学定理中的普适性和稳定性,并会随着社会的变化而变化。但是,企业需要及时认识规律、及时作出决策以获利。规律的适用范围窄、稳定性差、存在及时决策的需求,这些特点也决定了机械化的方法有其独特的优势。网络广告投放,以及电子商务的产品推荐就是典型的案例。在通常观念下,建立数学模型以及数据挖掘模型曾经被认为是证析项目中分析师最重要的工作。甚至有些证析项目中,分析师被认为是数据挖掘工程师的同义词。七、检验与评估:假设可能成立,也可能不成立,假设成立与否需要使用数据利用统计的方法进行检验。例如,也许刚好你的朋友中北方人普遍偏高,南方人身高普遍偏低,你可以假设“出生地在黄河以北的成年中国男性平均身高大于出生地在黄河以南的成年中国男性的平均身高”。南方人北方人的身高差异也许的确存在,也可能只是你的个人偏见,需要利用可靠的数据以及统计方法来检验这个假设。另一方面,对于不同的数据挖掘模型有不同的检验标准David Hand,Heikki Mannila,Padhraic Smyth,Principles of Data Mining,MIT,2001,p211-233.,例如,预测类模型的预测准确率就是一个对模型的检验指标。一个电子商务网站的数据挖掘算法可以根据用户对商品打分的历史数据中的一部分建立模型预测用户对其他商品的打分,也就是预测用户是否会喜欢其他商品。然后,分析师可以用建模数据之外的另外一部分数据验证这个模型的预测是否准确。这种从数字的角度对模型进行检验是在检验模型做得怎么样。另一方面,因为模型都是为了解决特定的业务问题而建立的,所以也需要从模型是否能够满足业务目标的角度对模型进行检验,也就是检验模型是否在做正确的事情。并且,因为数据挖掘模型是计算机以机械的方式自动生成的,其中所发现的很多规律可能没有任何意义甚至是荒谬的,如有可能的话,需要人们用自己对外部世界的知识检验这些机器所发现的规律。检验与评估是保证证析项目质量,确保证析项目的资源在朝着正确方向努力的重要手段。所以,企业需要在控制成本与风险的前提下使用多种手段从各个方面检验证析项目的成果。仍以推荐引擎的评估为例,企业可能通过利用离线数据模拟用户响应的方法、招募试用用户研究用户响应、研究推荐引擎在真实运行环境下的用户响应等方法对推荐引擎的效果进行研究Guy Shani and Asela Gunawardana,Evaluating Recommendation Systems,in Francesco Ricci•Lior Rokach•Bracha Shapira,Paul BKantor edsRecommender Systems Handbook,Springer,2011,p257-298。八、形成理论与洞察:人们在观察分析数据的过程中会进一步加深对现象的认识,然而人们不满足于只是描述观测到的现象与数据,人们希望利用自己的归纳和推理能力,对数据的产生机理做出猜测,从而形成理论。人们拥有理论之后将不满足于只是利用理论对已观察到的现象进行描述,而是希望将其外推到未知领域,希望能够预测。举一个例子以说明如果拥有理论、知道数据产生机制则有可能对从未观测到的现象进行预测。假设你作为玩家在赌场赌骰子,每注100元,庄家掷一枚骰子,如果骰子掷出1点,则玩家赢1000元,否则玩家血本无归。你可以观察庄家100次掷骰子的结果,统计其中出现1的次数,以此来判断骰子是否均匀,据此决定是否应该玩这个游戏。然而,假设庄家在一块幕布后掷骰子,你并不能看到骰子究竟掷出了几点,你只能获知庄家向外公布的一系列胜负结果,例如:1000100100000100000000100000010000000000000100000100000000000100001110101000000000001000100010010000,其中1代表玩家赢,0代表庄家赢。你通过观察发现,这100次结果中,玩家赢了18次。你据此推测,如果玩100次,你需要下注10000元,但是有可能赢得18000元,净赚8000元。由此你认为这个赌博有利可图,值得一试。其实这也是很多证析项目的实际做法。例如,分析师向一万名顾客推荐产品,经过观察发现其中两千名顾客购买了产品,这时分析师不需要知道顾客购买的原因是什么,可以单纯通过观察不同客户群的推荐成功率推测向顾客推荐产品是否划算。在此,正如在掷骰子的游戏中无论玩家和庄家之间有没有那层幕布,甚至玩家是否知道庄家是在掷骰子决定胜负都变得不重要了。进一步,如果庄家改变了游戏规则,玩家每次只需下注10元就有机会赢得百万元大奖。当然,玩家赢的概率也没有那么高了,你观察1000次可能都没有看到一次玩家赢得百万大奖。即使如此,你也不能断定玩家一定不能赢得百万大奖,因为你知道百万大奖不是那么容易得到的。然而,如果这时你想办法撕开了阻隔玩家和庄家之间的幕布,并且知道了决定玩家胜负的规则。你发现庄家现在是掷六枚骰子决定胜负,如果六枚骰子都掷出1算玩家赢,否则算庄家赢。你又观测了1000次这六枚骰子掷出的点数,以此判断这六枚骰子是否均匀。通过观察你发现这六枚骰子中每一枚出现1的概率都大概是1/6,庄家应该没有作弊。虽然这1000次观察中,你还是没有机会看到六枚骰子同时出现1的情况发生,但是你知道了玩家赢的机理,你能够算出玩家赢的概率是21/1000000,从而做出玩这个游戏会比较划算的结论。如果玩一百万次这个游戏,你几乎一定不会输,并且预期能净赚一千一百万元。当你撕开了这层幕布之后,你只需观察100次掷骰子的结果也能相对准确判断出这六枚骰子出现1的概率是多少,以此估算玩家赢的概率。这样的观察比没有撕开这层幕布时观察了十万次玩家输赢的结果更加有效。因为即使六枚骰子都是均匀的,每枚骰子出现1的概率都是六分之一,那么十万次投掷结果中出现六个1的情况平均也只出现2.1次,甚至很有可能这十万次结果中一次六个1也没有出现,也就是玩家一次也没有赢这个例子中假设六枚骰子掷出的点数相互独立。用六枚均匀骰子重复这个游戏十万次,没有出现六个1的概率是11.7%。这个游戏是玩家玩的次数越多,赢的可能性越大。例如,玩家只玩一次,他投的10块赌注几乎一定血本无归。如果玩家玩10万次,输的概率是11.7%,不输不赢的概率是25%。而如果玩家玩100万次,输或者平局的概率只有0.4%,有99.6%的可能性能够赢钱。另外,如果玩家只是观察胜负结果,即使玩家在十万次游戏观察到了2次玩家胜出,他也不敢贸然入局,因为这可能是随机波动的结果,即使在十万次游戏中玩家赢了两次,但是实际上玩家胜率小于十万分之一,也就是长久玩下来玩家会输的可能性也有24%。这是理论的力量,天文学家能够很好地解释某些天文现象出现的原因,根据这些天文知识天文学家能够预测一些从很少有机会被观测到的事件的发生。例如对于某类特殊的日全食,在一万年的时间内只会发生49次,但是天文学家能够对它的出现做出准确的预测Andrew WLo and Mark TMueller,WARNING:Physics Envy May Be Hazardous To Your Wealth!,Draft,March 19,2010.。很多理论的作用就如撕开隔在玩家和庄家之间那层幕布一样,人们除了知道发生了什么即“是什么”之外,也希望知道“为什么”。知道了“为什么”,人们能够用更合适的语言、更好的表达方式描述模型。在这个例子中,我们看到为了回答“为什么”这个问题,需要更为精细的观测(需要观测到六个骰子掷出的点数,而不只是简单的输赢结果),也需要对系统运作的机制作出猜测(“如果出现六个1则玩家赢”),这个猜测可能是通过一些其他知识获得的。不论观察者如何做出这样的猜测,但是正如前面所讨论的,这样的假设是可以被证伪的。也就是说,如果某次真的掷出六个1,并且玩家赢了,观察者对这个理论更有信心,但不能就此说这个理论是正确的。反过来,只要有一次掷出了六个1玩家却没有获得百万奖金,就能推翻这条理论。分析师需要跳出日常商业运营的细节,在对经验总结的基础之上获得洞察,从而形成更有普遍意义的理论。这需要分析师具有足够的洞察力与创造力,这样的分析师可遇而不可求。九、推理与优化:有时虽然我们掌握了可靠的理论和事实,但如果要得出有用的结论还需经过一定的推理工作。可以看一下福尔摩斯的推理过程:“马厩中有一条狗,然而,尽管有人进来,并且把马牵走,它竟毫不吠叫……显然,这位午夜来客是这条狗非常熟悉的人物。”柯南道尔著,李家云译,银色马,《福尔摩斯探案全集(中册)》,群众出版社,1981年,p26。虽然有人会辩驳说,福尔摩斯的“来者不是陌生人”的结论蕴涵在他所掌握的“如果来者是陌生人,那么狗会叫”这个理论和他所观察到的“狗没有叫”这个事实之中,整个推理没有产生任何新知识。但很显然,如果没有经过推理,福尔摩斯不会得到“来者不是陌生人”这条对破案至关重要的线索。分析师就是证析项目中的福尔摩斯,虽然分析师了解了很多业务知识,构建了很多理论,观察到很多事实,但如果他不运用推理的能力还是不能从这些知识、理论、事实中抽取出对解决问题有帮助的信息。使用计算机进行自动推理曾是人工智能领域的重要研究课题,八十年代专家系统的兴起使其受到了大众更为广泛的关注。然而,在那个数据相对匮乏的年代,专家系统作为一个封闭系统很难维系与更新其知识库,从而专家系统没有取得曾被期许的目标。但专家系统中用于自动推理的规则引擎还是得到了进一步的发展和应用。规则引擎能够帮助企业管理复杂的业务规则与业务逻辑,并有可能据此帮助企业自动化地做出大量的运营决策James Taylor,Neil Raden,Smart (Enough) Systems:How to Deliver Competitive Advantage by Automating Hidden Decisions,Prentice Hall,2007.。如果说福尔摩斯的逻辑推理得出的有意义的结论已经蕴涵在他所掌握的事实与理论中,那么很多数学运算也具此特征。例如,假设我们拥有全国各个城市之间的公路里程表,我们知道从北京到上海运送货物距离最短的路线。虽然这个问题的答案也蕴涵在城市间公路里程表中,但必须通过搜索和优化算法进行数学运算才能获知“从北京经由济南到达上海”这条路径是我们想要的答案,而货车不应走“从北京经由西宁到达上海”这条路线。十、干预与解决方案设计:如果说前面几个阶段工作更多是分析导向的,是与数字打交道的,那么这个阶段的工作需要更多的创意。前面的分析工作的目的大多是为了设计出能够改善业务的解决方案做准备,为了完成这个任务需要分析师以及合作者能够理解分析结果,需要具备丰富的行业知识以及对企业的深入理解。前面的分析结果以及模型可能是以计算机系统的形式作为解决方案的一部分出现,也可能只是为解决方案指明了方向而不出现在解决方案之中。所以,计算机系统绝对不是干预和解决方案的全部,甚至不是其中最重要的部分,解决方案可能是针对人、组织、文化、系统不同方面的干预。这一阶段的工作大致包括产生创意、细化创意、选择方案等几个步骤。十一、模拟与仿真:随着计算能力日益强大,需要耗费大量计算资源的模拟与仿真的方法开始变得可行,并得到重视。模拟与仿真是人们获取数据与经验的一种经济、有效的方式,例如飞行员在驾驶昂贵的飞机上天之前可以在模拟真实飞行环境的模拟器上学习飞行,以此学习应如何面对各种情况。如有可能,决策者在推行一项新的方案之前进行一番“沙盘推演”也能快速、低成本、直观的评估方案的优劣。通过模拟的方式能够让决策者认识到不同选择对结果的影响。例如,降价会对销量、销售额、利润产生不同程度的影响,虽然数学模型能够描述几者之间的关系,但如果决策者能够看到不同幅度的降价对销量、销售额、利润的不同程度的影响,能让他在权衡利弊之后做出选择。并且,仿真也是分析师和决策者进行沟通的有力工具。假想一个村庄即将被大水淹没,村民需要选择一个合适的避难点躲避洪水,村庄中的教堂塔尖是村中的最高点,如果分析师使用优化算法提供一个唯一答案时,钟楼塔尖将是他所推荐的首选。然而,很明显这个塔尖是一个难以立足的地方,很不稳定,并且在上面避难也很不舒服。如果分析师能够以仿真模型的形式将分析结果提供给决策者,决策者得到的建议不只是应该在塔尖上避难这么一个孤立的结果,决策者能主动发现教堂旁富豪家的房顶只比这个塔尖低一米,并且房顶平台更大,会是一个更好的避难所,他可能会放弃塔尖这个“最优”答案。当输入变量不是一个确定取值,而是在一个取值范围内的随机分布时,数学模型的结果也将不是一个单点的确定输出,利用模拟与仿真实现的上述场景将更加有用。另外,当证析得出的模型与公式包含很多主观经验,使用模拟的方法能够让决策者更全面的评估各种假设是否合理。例如,在分配权重过程中一些细微的权重调整都有可能得出截然不同的结果,而通过模拟仿真的方法可以让决策者评估不同的权重假设会得到什么样不同的结果。当模型中涉及对未来的假设时,模拟仿真的方法可以让决策者评估当未来以不同的方式展开时,不同的决策会产生什么不同的后果。另外,很多业务决策中涉及对包括客户、员工等多个个体的复杂系统的干预。因为这种复杂系统中的个体之间存在交互作用,会出现整体大于部分相加之和的现象,对单个个体有效的干预手段将不一定适于对整体的干预。例如,当电影院银幕意外发生火灾时,电影院的经理希望观众通过远离银幕的1号门撤离现场,这条规则是某一位观众最安全的逃生方案。但是,当所有的观众都涌向1号门时,必然造成观众的拥挤、踩踏的现象,造成谁都无法逃离现场,曾经最安全的逃生方案变成了最危险的逃生方案。对这种复杂系统用传统的形式化数学工具描述与求解是一项十分困难的工作。另外的求解方法是利用一种最近十余年逐步流行起来的“基于主体的建模”(Agent-Based Modeling)手段对其进行研究。这种研究方式对社会系统中的个体建立模型,并且把计算机模拟的个体放到计算机模拟的虚拟环境中,观察个体在这个人工虚拟环境中如何交互。例如,上面例子中在计算机中建立一个虚拟的电影院模型,这个电影院的模型中有放映大厅布局、失火位置、电影院座椅摆放方式、电影院出口位置等信息。研究人员在这个虚拟的电影院中还需要建立每个观众的模型,观众模型中包含了诸如他将从1号门逃生这样的规则。当把虚拟的观众放到虚拟的电影院中,研究者可以对观众逃生过程中是否会发生拥堵的现象,拥堵在什么情况下发生等问题进行研究。基于主体建模的好处是能够将微观的个体规则(观众从1号门逃生)和宏观的整体现象(发生拥堵和踩踏)联系起来,让研究者有机会观察整体的宏观现象如何从遵循简单规则的个体交互中涌现(emerge)出来。虽然这样的分析其预测效果有限,但是影院经理通过观察虚拟世界的观众逃生情况能够对疏散规则、影院座椅布置、出口设置等因素对影院安全的影响有一个直观的认识。十几年前,基于主体的建模刚刚兴起时,它可以弥补当时社会科学研究中数据不足的缺陷,研究者可以通过计算机模拟仿真产生大量数据用于研究。随着现在手机、GPS的普及,对个体的观测数据日益丰富,研究者有可能对个体建立更加复杂的模型进行仿真。并且,它对于那些难以搜集数据(例如,例子中的电影院火灾)、搜集数据受到法规限制(例如,法规和隐私条例限制不得抓取微博上某些类型的信息为此,电信运营商Telefonica建立了一个仿真平台。参见,Vijay Erramilli,Xiaoyuan Yang,Pablo Rodriguez,“Explore what-if scenarios with SONG:Social NetworkWrite Generator”,http://arxiv.org/abs/1102.0699。)或者搜集数据成本过高的问题的研究仍然具有很重要的价值。基于主体的仿真还不如统计或者数据挖掘那么流行,还不是分析师工具箱中的主流工具,但是包括美国军方、电信运营商等一些组织或企业已经开始用它进行问题研究有关Agent Based Modeling简介参见Michael J.North and Charles M.Macal (eds.),Managing business complexity :discovering strategic solutions with agent-based modeling and simulation,Oxford University Press,2007。Stefania Bandini,Sara Manzoni,Giuseppe Vizzari,“Agent Based Modeling and Simulation”,in Robert A.Meyers (Ed.),Encyclopedia of Complexity and Systems Science,Springer Science + Buisiness Media,LLC.,2009,p184-223.有关ABM研究者办公司,参见 Evan I.Schwartz,Predictive Modeling Isn’t Magic,Technology Review website,posted December 13,2010,http://www.technologyreview.com/business/26886/。十二、实验:通过对历史数据的分析、挖掘与建模能够发现数据中的一些隐含的模式和关联关系。但是,相关性并不等同于因果性。例如,通过数据分析发现某家商场的高档服装和高档酒销量同时上升,二者之间存在很强的相关性。但是,商场不能据此得出结论:促销高档酒能够帮助商场卖出更多的高档服装。这只是提升高档服装销量的一种可能的方法,这种方法是否真的有效,需要实际试一试才能知道。提高高档服装销量的手段有很多种,并且这些方法可能隐藏在人们的视野范围之外。数据与理论所产生的洞察能够帮助人们发现一些改善结果的方法,但是在经过实验验证之前,这些方法还只是一些假设,研究者需要通过设计实验验证这些方法的有效性。数据和理论能够产生很多可能的假设,因为实验需要成本,研究者能够通过实验进行检验的假设只占所有假设中的一小部分,而对哪些假设进行实验检验往往需要人们的直觉与判断。实验作为自然科学的研究方法已经被人们所熟知,它也在运作管理、工业设计等领域得到了广泛应用。但它在商业领域的应用还不如在自然科学领域的应用那么普遍与严格。例如,有些具有多家分支机构的企业在采用和推广某项方案之前会先在一些小范围内试点,这些试点能够帮助人们获得对此方案的一些直观的经验。但是因为在试点过程中每次改变了过多的要素,使人们很难在被混淆的诸多要素中分辨出具体是哪些要素对效果的提升起了作用Thomas H.Davenport,“How to Design Smart Business Experiments”,Harvard Business Review,Feb.2009,p68-76.。因为业务证析中的决策往往是对涉及人或者人群的复杂系统的干预,适用于这些复杂系统的规律不如描述物理系统的规律那么具有普适性。对这些系统的干预经常是目标导向的,经常用收入等指标衡量这些干预手段的效果。业务证析的这些特点和医学治疗有相似之处,医疗是通过对人体这个复杂的系统的干预以达到治愈疾病等目标。随机化实验的手段已经在以循证医学(EBM,evidence-based medicine)为代表的医学研究中有广泛的应用,循证医学的研究方法对业务证析有很多可借鉴之处,本书将在第二章予以介绍。虽然理论和洞察能够帮助人们设计干预手段、设计实验,但对许多还没有成熟的理论支撑,不能得到“为什么”的满意答案的领域,实验能够让研究者更加关注结果,通过实验设计与分析来关注“怎么做才是有效的”。在这种思路下,对历史数据的占有与挖掘并产生洞察并不是设计干预手段与实验设计的必要条件。所以,实验也是那些还不具备充足的数据的领域和企业主动搜集数据的一种有效手段。十三、应用与推广:证析是为决策服务的,决策者包括但不限于企业经理、高管等高层决策者,也包括企业一线的运营人员。虽然证析项目是由企业的管理者发起并推动的,数据的搜集与分析是由分析师完成的,但是证析所生产的知识不是由企业管理者和分析师所专有的,这些知识可能对整个企业产生影响。只有这样,证析才有可能发挥其最大价值。证析对企业的影响主要以三种形式体现:工具或系统、组织与流程、人力资源。机械工程师会根据其经验与知识设计新的工具以提升工作效率,这些新的工具是知识、诀窍、技能的物化。证析项目不可避免地要用到计算机进行数据处理与分析,计算机系统是分析师应用和推广证析结果的首选。和机械工程师设计新工具相类似,分析师会设计一些自动化的算法和计算机能够理解的业务规则,并将其与企业现有的运营系统相融合,通过机器自动决策的形式指导

编辑推荐

《证析:大数据与基于证据的决策》是第一本关于Analytics的中文专注。其重点并不在于技术。证析的目的是使用数据提升决策质量,它是思想、方法、组织、商业、系统、技术几方面共同作用的结果。并且,除了IT技术之外,统计学、哲学、经济学、管理学、社会学、心理学等学科的思想与发展也必将对其产生重大影响。《证析:大数据与基于证据的决策》是作者从思想与业务的角度对证析进行探讨的一个尝试。

名人推荐

这个领域在理论与实践均是刚刚起步。如果我们下大力气,从实践到理论,从理论到实践来抓起,有可能在此领域参与、推动甚至领导世界上此行业的发展。我相信数十年后,人类对数据-信息-知识过程的创新,会如同蒸汽机、计算机的诞生一样将是一个重大领域的创新。对建设创新性国家的中国无疑是历史性的机遇。未来,我们每个人将有一个“数据银行”。数据加工业,数据工厂等新产业形式将层出不穷。它将带来几十万、上百万新型软件工程师、数据分析师等新的工作与就业机会,中国应有可能在过去几十年成为世界工厂后,在未来几十年成为世界的“数据工厂”。——中国宽带资本基金董事长 田溯宁

图书封面

图书标签Tags

评论、评分、阅读与下载


    证析 PDF格式下载


用户评论 (总计51条)

 
 

  •   这本书写的很好,里边有大量的例子证明大数据的证析。
  •   证据是实事求是的根本元素,但很多企业决策都不依赖数据——数字证据
  •   大数据时代,了解证据方面的内容
  •   很不错的大数据读物,不是一个朋友推荐了,确实对思路有帮助。不过是真想吐槽一下这物流速度,前天下单,今天快晚上才到。
  •   数据提供给我们完整的一生。
  •   大数据的世界已来临。
  •   这本书的感觉是科学性和哲学性的结合,很不错。
  •   案例丰富,引人入胜
  •   思考的角度很特别,值得一看
  •   给单位购买的图书,发给员工看,观看感说挺好的,需要了解的知识里面也挺全,发货速度也很好,纸张印刷也不错,非常好
  •   很不错的一本书,包装也非常精美
  •   领导很喜欢这本书,正在细细研读。他说这本书很有意思,能锻炼人的思维。
  •   老师推荐的一本课外读物,非常好
  •   绝对好书,深入浅出,值得推荐,值得收藏。
  •   不错,能把问题写的这样清晰不容易。问题是如何从其中获得一些方法
  •   非常实用 很权威 对工作有帮助
  •   书挺好的,如果可以跟发票一起寄给我就更好了:)
  •   只是书太多,不知道什么时候可以看完
  •   书和东西都很好呀!
  •   非常好的书,考研必备,对我的帮助巨大
  •   Very impressive
  •   本人所反对的是某些信口开河、固步自封、狭隘自私的所谓'专家‘;反对的是用专家头衔、华而不实的所谓'理论’自上而下的精英主义的灌输观念与建议。
  •   帮同事买的,看后说不错。
  •   刚开始看有些难度,是本不错的好书!会坚持看完的!
  •   不错,内容很好,有内涵,值得细读
  •   打开另一扇门,给人一种全新的解读和思维
  •   值得一看的关于大数据的书
  •   内容很专业,但读进去感觉豁然开朗,好书值得推荐。
  •   看目录觉得内容应该还是不错的
  •   挺好玩的,通俗易懂
  •   很有种开天辟地的气势
  •   感觉更适合管理者或研究信息管理学的学者来阅读,和我原来想买的大数据技术类图书初衷有点差别。更多是从大数据的意义,以及经营、管理等方面进行了论述。可能更注重思考方法一些。
  •   一般,较为空洞宽泛,可泛读
  •   拿到书以后一气读下来。这本书是我看到中国人写关于大数据,数据分析和挖掘最好的书。里面充满了案例,但更重要是是有观点。本人从事商业和市场分析,对个人非常有启发。建议从事分析,营销以及企业高层拿来读一下。真正的数据驱动,需要企业最高领导对数据和分析的价值有充分认识,对数据和数据驱动有理解,自上而下地驱动企业数据变革。对很多公司来说,坐在数据的金山上但是不知道如何应用。而很多传统行业又说自己没有数据。其实,数据不需要多,关键是要将数据和自己的业务建立起来联系。有机会可以看一下江南春在2012年艾瑞上海年会上讲的垃圾数据的例子。希望有更多的人可以认真读一下这本中国人自己写的,适合中国环境和脑子的书。
  •   带着国内第一本该领域书的好奇阅读了该书。很有思想深度的一本书,关于大数据为背景如何有效提升决策质量。决策对人类来说是个常规事务,但在大数据的背景下,在商业竞争激烈的情况下,决策质量和效率之于成败攸关重要。作者指出了传统决策的误区和缺陷,并以科学方法对决策面对的不确定性进行了具有可操作性的启发、指导分析,使得工作中面对的很多实际问题豁然开朗;从运营的角度,企业从客户需求的捕捉、组织运营、考核等方面如何基于事实本身的分析和运用获得竞争优势,作者以科学方法论的方式进行了阐述并提出了验证思想和实践指导;最后,如何组织整合建立大数据资源也有很多建设性想法,体现了大数据为基础的认识和实践思想
  •   角度不仅新颖并且确实很有现实指导意义,受到不少启发。
  •   读到后面有些松劲了,再努力读吧!
  •   写得挺不错的,很实用
  •   作者是国内的 写的还是很好的 有理有据
  •   有点罗嗦,观点也很不明确,有时候很多时候不知道作者在讨论什么议题。虽然题目是big data,但是明显是图书商人挂羊头卖狗肉。和周涛翻译的那个畅销书big data差很远。
  •   还没有读完,但是感觉不错。最主要是书中提供的是思维方法。
  •   “如果说以前商业上最大的秘密是可口可乐的神秘配方,那么现在商业上最大的秘密就是eBay、Google这些公司如何处理和利用客户数据的算法”。早期IT应用的优势不再有效,但IT应用并未死亡。过去理解的IT是电子化应用的基础设施及软件定制,现在则是大数据环境下,企业与用户交互行为数据挖掘。
  •   绝非人云亦云之作。可以看看最后一章中对维克托•迈尔•舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中提到的相关性大于因果性的批评。
  •   将已有的各类信息进行堆砌,说明一个显而易见的事实:信息分析的重要性。我们想看到是针对不同行业或有代表性的过程如何收集信息,如何分析信息。书中对我而言没有新信息。
  •   故弄玄虚,纯粹是作者自以为是的主观意见,或者对于现象的断章取义......
  •   感觉蛮实在的一本书 比较有理性和逻辑性 蛮适合我的口味对数据分析有个框架性的认识
  •   很好, 很不错 很喜欢!
  •   真心觉得是一本好书,可以慢慢研究
  •   选大数据时的推荐书
  •   这本书不错的样子。。。
  •   很多有趣的案例,通俗易懂!
 

250万本中文图书简介、评论、评分,PDF格式免费下载。 第一图书网 手机版

京ICP备13047387号-7