目录

引言 正在发生的生活、工作与思维的大变革

【大数据洞察】

   如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。【大数据洞察】

   这仅仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也受到了挑战。【大数据洞察】

   大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。【大数据洞察】

   大数据给社会带来的益处将是多方面的。因为大数据已经成为解决紧迫世界性问题,如抑制全球变暖、消除疾病、提高执政能力和发展经济的一个有力武器。但是大数据时代也向我们提出了挑战,我们需要做好充足的准备迎接大数据技术给我们的机构和自身带来的改变。

第一部分 大数据时代的思维变革第1章 更多:不是随机样本,而是所有数据

【大数据洞察】 我们总是习惯把统计抽样看做文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史尚不足一百年。如今,技术环境已经有了很大的改善。在大数据时代进行抽样分析,就像是在汽车时代骑马一样。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢地,我们会完全抛弃样本分析。

第2章 更杂:不是精确性,而是混杂性

【大数据洞察】

   “大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长的时间,其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。【大数据洞察】

   如今,我们已经生活在信息时代。我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。【大数据洞察】

   我们怎么看待使用所有数据和使用部分数据的差别,以及我们怎样选择放松要求并取代严格的精确性,将会对我们与世界的沟通产生深刻的影响。随着大数据技术成为日常生活的一部分,我们应该开始从一个比以前更大更全面的角度来理解事物,也就是说应该将“样本=总体”植入我们的思维中。【大数据洞察】

   大数据要求我们有所改变,我们必须能够接受混乱和不确定性。精确性似乎一直是我们生活的支撑,就像我们常说的“钉是钉,铆是铆”。但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相就又近了一步。第3章 更好:不是因果关系,而是相关关系

【大数据洞察】

   当我们说人类是通过因果关系了解世界时,我们指的是我们在理解和解释世界各种现象时使用的两种基本方法:一种是通过快速、虚幻的因果关系,还有一种就是通过缓慢、有条不紊的因果关系。大数据会改变这两种基本方法在我们认识世界时所扮演的角色。【大数据洞察】

   在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。【大数据洞察】

   我们需要改变我们的操作方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。【大数据洞察】

   “理论的终结”似乎暗示着,尽管理论仍存在于像物理、化学这样的学科里,但大数据分析不需要成形的概念。这实在荒谬。第二部分 大数据时代的商业变革第4章 数据化:一切皆可“量化”

【大数据洞察】

   今天,技术专家都默认大数据的发展和计算机的变革是同步的。但事实并不是这样的。毫无疑问,是现代信息系统让大数据成为了可能,但是大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。【大数据洞察】

   对地理位置的数据化需要满足一些前提条件。我们需要能精确地测量地球上的每一块地方;我们需要一套标准的标记体系;我们需要收集和记录数据的工具。简而言之,就是地理范围、标准、工具或者说量化、标准化、收集。只有具备了这些,我们才能把位置信息当成数据来存储和分析。【大数据洞察】

   一旦世界被数据化,就只有你想不到,而没有信息做不到的事情了。莫里通过艰辛的人工分析才揭示了隐藏在数据中的价值,而今天,拥有了数据分析的工具(统计学和算法)以及必须的设备(信息处理器和存储器),我们就可以在更多领域、更快、更大规模地进行数据处理了。在大数据时代,惊喜无处不在! 【大数据洞察】

   今天,我们生活在一个计算型的社会,因为我们相信世界可以通过数字和数学而获得解释。我们也相信知识可以跨越时空。事实上,我们对书写还存在着一种根深蒂固的敬畏。明天,我们的下一代,一群被“大数据观念”陶冶长大的家伙,会发自肺腑地认为“量化一切”并从中学习对于社会是至关重要的。把各种各样的现实转化为数据,对今天的我们而言也许是新奇而有趣的,但在不久的将来,这将变成如同吃饭睡觉一样与生俱来的能力——这又让我想起了“数据”这个词语的拉丁语原意。第5章 价值:“取之不尽,用之不竭”的数据创新

【大数据洞察】

   在数字化时代,数据支持交易的作用被掩盖,数据只是被交易的对象。而在大数据时代,事情再次发生变化。数据的价值从它最基本的用途转变为未来的潜在用途。这一转变意义重大,它影响了企业评估其拥有的数据及访问者的方式,促使甚至是迫使公司改变他们的商业模式,同时也改变了组织看待和使用数据的方式。【大数据洞察】

   数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其它目的。要了解大数据时代究竟有多少信息对我们有价值,后面这一点尤其重要。【大数据洞察】

   最终,数据的价值是其所有可能用途的总和。这些似乎无限的潜在用途就像是选择,这里不是指金融工具意义上的选择,而是实际意义上的选择。这些选择的总和就是数据的价值,即数据的“潜在价值”。【大数据洞察】

   潜在价值的概念表明,组织结构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应当与第三方分享数据,前提是要保留所谓的“延展性”权利(专利许可术语)。这样一来,由数据再利用而产生的任何商业价值,原始数据拥有者都能从中分到一杯羹。数据收集者和拥有者无法想象数据再利用的所有可能方式,这一点几乎是不言自明的。【大数据洞察】

   数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。

第6章 角色定位: 数据、技术与思维的三足鼎立

【大数据洞察】

   到目前为止,前两种因素一直备受关注,因为在现今世界,技能依然欠缺,而数据则非常之多。近年来,一种新的职业出现了,那就是“数据科学家”。数据科学家是统计学家、软件程序员、图形设计师与作家的结合体。与通过显微镜发现事物不同,数据科学家通过探寻数据库来得到新的发现。全球知名咨询管理公司麦肯锡,就曾极端地预测数据科学家是当今和未来稀缺的资源。如今的数据科学家们也喜欢用这个预测来提升自己的地位和工资水平。【大数据洞察】

   现今,我们正处在大数据时代的早期,思维和技能是最有价值的,但是最终,大部分的价值还是必须从数据本身中挖掘。因为在未来,我们可以利用数据做更多的事情,而数据拥有者们也会真正意识到他们所拥有的财富。因此,他们可能会把他们手中所拥有的数据抓得更紧,也会以更高的价格将其出售。继续用金矿来打比方:只有金子才是真正值钱的。【大数据洞察】

   规模仍然很重要,但是如今重要的是数据的规模,也就是说要掌握大量的数据而且要有能力轻松地获得更多的数据。所以,随着拥有的数据越来越多,大数据拥有者将大放异彩,因为他们可以把这些数据转化为价值。【大数据洞察】

   大数据让处在行业两端的公司受益良多,而中等规模的公司要么向两端转换,要么破产。传统行业最终都会转变为大数据行业,无论是金融服务业、医药行业还是制造业。当然,大数据不会让所有行业的中等规模的公司消亡,但是肯定会给可以被大数据分析所取代的中等规模公司带来巨大的威胁。【大数据洞察】

   竞争正如火如荼地进行。就像谷歌的检索系统需要用户数据才能完好运行,德国的汽车零件供应商需要反馈的数据来提高它的零件质量,所有的公司都能通过巧妙地挖掘数据价值而获得利益。数据能够优化生产和服务,甚至能催生新的行业。

第三部分 大数据时代的管理变革第7章 风险:让数据主宰一切的隐忧

【大数据洞察】

   在大数据时代,不管是告知与许可,模糊化还是匿名化,这三大隐私保护策略都失效了。如今很多用户都觉得自己的隐私已经受到了威胁,当大数据变得更为普遍的时候,情况将更加不堪设想。【大数据洞察】

   大数据替我们规避了“画像”的缺陷,因为大数据区分的是个人而不是群体,所以我们不会再通过“牵连犯罪”给群体中的每个人都定罪。如今,一个用现金购买头等舱单程票的阿拉伯人不会再被认为是恐怖分子而接受额外的检查,只要他身上的其他数据表明他基本没有恐怖主义倾向。因此,大数据通过给予我们关于个人自身更详尽的数据信息,帮我们规避了“画像”的缺陷——直接将群体特征强加于个人。【大数据洞察】

   也许,大数据预测可以为我们打造一个更安全、更高效的社会,但是却否认了我们之所以为人的重要组成部分——自由选择的能力和行为责任自负。大数据成为了集体选择的工具,但也放弃了我们的自由意志。

   大数据的不利影响并不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的。让人们为还未实施的未来行为名单是带来不利影响的主要原因,因为我们把个人罪责判定建立在大数据预测的基础上是不合理的。【大数据洞察】

   美国军方在越战时对数据的使用、滥用和误用给我们提了一个醒,在由“小数据”时代向大数据时代转变的过程中,我们对信息的一些局限性必须给予高度的重视。数据的质量可能会很差;可能是不客观的;可能存在分析错误或者具有误导性;更糟糕的是,数据可能根本达不到量化它的目的。

   我们比想象中更容易受到数据的统治——让数据以良莠参半的方式统治我们。其威胁就是——我们可能会完全受限于我们的分析结果,即使这个结果理应受到质疑。或者说,我们会形成一种对数据的执迷,因而仅仅为了收集数据而收集数据,或者赋予数据根本无权得到的信任。

第8章 掌控:自由与责任并举的数据管理

【大数据洞察】

   将责任从民众转移到数据使用者很有意义,也存在充分的理由,因为数据使用者比任何人都明白他们想要如何利用数据。他们的评估(或者由他们所雇佣的专家制定的评估)避免了商业机密的泄漏。也许更为重要的是,数据使用者是数据二级应用的最大受益者,所以理所当然应该让他们为自己的行为负责。【大数据洞察】

   除了管理上的转变,即从个人许可到数据使用者承担相应责任的转变,我们也需要发明并推行新技术方式来促进隐私保护。一个创新途径就是“差别隐私”:故意将数据模糊处理,促使对大数据库的查询不能显示精确的结果,而只有相近的结果。这就使得挖出特定个人与特定数据点的联系变得难以实现并且耗费巨大。【大数据洞察】

   身处大数据时代,我们必须拓宽对公正的理解,必须把对个人动因的保护纳入进来,就像目前我们为程序公正所做的努力一样。如若不然,公正的信念就可能被完全破坏。【大数据洞察】

   大数据管理的基本支撑是保证我们依然是通过考虑他人的个人责任对其进行评判,而不是借助“客观”数据处理去决定他们是否违法。只有这样,我们才是把其当作人来看待——当作有行为选择自由和通过自主行为被评判的人。这就是从大数据推论到今天的无罪推定原则。【大数据洞察】

   大数据将要求一个新的人群来扮演这种角色,也许他们会被称作“算法师”。他们有两种形式:在机构外部工作的独立实体和机构内部的工作人员——正如公司有内部的会计人员和进行鉴证的外部审计师。

   这些新的专业人员会是计算机科学、数学和统计学领域的专家,他们将担任大数据分析和预测的评估专家。他们必须保证公正和保密,就像现在的审计员和其他专业人士所做的一样。他们可以评估数据源的挑选,分析和预测工具的选取,甚至包括运算法则和模型,以及计算结果的解读是否正确合理。一旦出现争议,他们有权考察与分析结果相关的运算法则、统计方法以及数据集。

结语 已经发生的未来

【大数据洞察】

   现在,我们可以获得比以前更多的信息并进行分析。在我们诠释世界时,数据不再是限制我们努力的因素了。我们可以利用更多的数据,某些情况下,甚至是全部数据。但是这需要我们采取非传统的方法,特别是要改变我们理想中构成有用信息的因素。【大数据洞察】

   我们“做新、做多、做好、做快”的能力能释放出无限价值,产生新的赢家和输家。大部分的信息价值来自二级用途,即潜在价值,而不是我们所习惯认为的基本用途。结果,对于大多数数据来说,尽可能多地收集、等待信息增值并且让其他更适合挖掘其价值的人来分析它才是明智之举(前提是此人能够分享开发出的利润)。【大数据洞察】

   大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。偶尔也会带来屈辱或固执的同样混乱的大脑运作,也能带来成功,或在偶然间促成我们的伟大。这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特征之一。就好象我们学习处理混乱数据一样,因为这些数据服务的是更加广大的目标。毕竟混乱构成了世界的本质,也构成了人脑的本质,而无论是世界的混乱还是人脑的混乱,学会接受和应用它们才能得益。