《大数据时代:生活、工作与思维的大变革》是大数据相关主题的畅销书之一,作者是维克托·迈尔-舍恩伯格【英】,他被誉为“大数据时代的预言家”,现任牛津大学网络学院互联网研究所治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,新加坡国立大学信息政策研究中心主任。他的咨询客户包括微软、惠普和 IBM 等全球顶级企业,他是欧盟互联网官方政策背后真正的定制者和参与者,还先后担任新加坡商务部高层、文莱国防部高层、科威特商务部高层、迪拜及中东政府高层的智囊。
这次的主题报告主要和大家分享一下书中作者关于大数据的一些观点和想法,也希望大家能够对这些观点提出自己的看法。
以下是我做的关于这本书的思维导图:
正如从思维导图中可以看到的,整本书的结构分成三部分:大思维变革,商业变革与管理变革。个人觉得和我们比较相关的可能是思维变革与商业变革两部分,因此这次主题报告主要和大家分享了这前面两部分的内容。
第一部分:思维变革
在这一部分的内容中,作者主要提出了三个观点:更多,更杂,更好。一下是提炼出的作者的一些观点:
1. 更多:不是随机样本,而是全体数据
小数据时代的随机采样,最少的数据获得最多的信息
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。
随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨,但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。
大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。(大数据时代:样本==总体)
在大数据时代进行抽样分析就像是汽车时代骑马一样。在某些特定情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢地,我们会完全抛弃样本分析。
2. 更杂:不是精确性,而是混杂性
允许不精确
大数据的简单算法比小数据的复杂算法更有效
纷繁的数据越多越好
混杂性,不是竭力避免,而是标准途径
大数据要求我们有所改变,我们必须能够接受混乱和不确定性。
3. 更好:不是因果关系,而是相关关系
知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原理,而是要让数据自己“发声”。
建立在相关关系分析法基础上的预测是大数据的核心。
相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。
第二部分:商业变革
在商业变革这部分中,作者主要从四个方面来讲述了大数据时代对商业社会产生的影响与变化,分别是:数据化、数据价值、数据创新与角色定位。
1. 数据化:一切皆可量化
数据可以从最不可能的地方提取出来;文字可以变成数据;方位可以变成数据;沟通可以变成数据。
2. 数据价值:“取之不尽,用之不竭”的数据创新,数据具有潜在价值。
作者用两个案例来讲述如果挖掘数据的潜在价值。
ReCaptcha 与数据再利用:垃圾邮件促使验证码的发明,然而为了能够使人的计算能力得到更有效的利用,发明者对验证码改进,
人们需要从计算机光学字符识别程序无法识别的文本扫描项目中读出两个单词并输入。后来谷歌收购
了该公司,并用于图书扫描项目。
IBM,电动汽车动力与电力供应系统优化预测:为了解决电动车应在何时何地获取动力的问题,IBM 利用汽车的电池电量、汽车的位置和一天中的时间以及附近可用插槽等信息,开发了一套复杂的预测模型,并将诶是充电站的最佳设置点。
这两个案例的共同点在于数据并不是以其本身的作用被利用的,如汽车电池的电量等本来是设计来给驾驶者了解汽车本身电量情况的指标,但在案例中被用以分析和预测。这是数据的二次利用,挖掘出了数据的潜在价值。
总结来说就是:数据的真正价值就像漂浮在海洋上的冰山,**第一眼只能看到冰山一角,**而绝大部分则隐藏在表面之下。
3. 数据创新:
数据的再利用
重组数据:数据的总和比部分更有价值
可扩展数据:尽可能收集多的数据并考虑到各种潜在的二次用途
数据的折旧值:数据的有效性随着时间推移而下降
数据废气:描述人们在网上留下的数字轨迹
开放数据:开放政府数据,取之于民,用之于民
4. 角色定位:数据、技术与思维的三足鼎立
基于数据本身的公司:拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。
基于技能的公司:通常是咨询公司、技术供应商或者分析公司,它们掌握专业技能但不一定拥有数据或者提出数据创新性用途的才能。
基于思维的公司:创新思维,有挖掘数据的新价值的独特想法。所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为钱百万人急需解决的问题提供答案。
大数据时代会出现的两种新角色:
全新的数据中间商:它们从各种地方搜集数据进行整合,然后再提取有用的信息进行利用。
例如:交通数据处理公司:Inrix,它汇集了来自美洲和欧洲近 1 亿辆汽车的实时交通数据,包括私家车和商用车。同时,私家车主的移动电话也是数据的来源。通过为用户提供一个免费的智能手机应用程序,一方面为用户提供免费的交通信息,另一方面也为了自己收集同步的数据。通过这些数据和历史交通数据进行比对,在考虑天气和其他诸如当地时事等信息来预测交通状况,并将数据软件分析出的结果同步到汽车的导航系统中。
崛起的数据科学家:行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。他们的判断建立在相关关系的基础上,没有收到偏见和成见的影响。
例如:Coursera,一家网上教育公司,深度地研究它收集的所有数据,比如学生重放过讲座视频的哪个片段,从而找出不明确或者很吸
引人的地方,然后反馈给设计课程的团队。这在以前是做不到的,所以老师的教育方法一定会改变。
以上就是这次主题报告的内容。
对《大数据时代:生活、工作与思维的大变革》一书感兴趣的读者可以查看该书相关的书评等 book.douban.com/subject/20429677/
✉️ zjuvis@cad.zju.edu.cn