大数据方法:科学方法的变革和哲学思考 |
时间:2015-05-15 来源:admin |
随着信息技术和网络技术的快速发展,人类所存储的数据越来越多,数据已经从量变走向了质变,成为了“大数据”(Big Data)。大数据概念首见于1998年《科学》(Science)中的《大数据的管理者》(A Handler for Big Data)一文。2008年《自然》(Nature)的“大数据”(“Big Data”)专刊之后,大数据便爆发了,成为了学术、产业和政府各界甚至大众的热门概念,美国等发达国家已经制定并实施大数据战略。 刘红、胡新和指出,大数据带来了第二次数据革命,使得万物皆数的理念得以实现,标志着数据发展史上第三个阶段的开始④;数据在科学研究中的地位与作用发生了变化,引发了一系列哲学问题,应当纳入到科学哲学的研究领域。⑤S. 莱奥内利(S. Leonelli)以生物医学本体(Biomedical Ontologies)为案例,探讨了理论在数据密集型科学中的角色。⑥W. 皮奇(W. Pietsch)探讨了大数据中的因果性,提出大数据的水平建模。⑦在各界喧嚣的大数据浪潮中,大数据究竟意味着什么?这是一个非常值得深思的问题。 一、大数据的内涵及方法 关于大数据表现形式的概括,目前较为广泛认可的是4V说,即规模性(vlume)、多样性(variety)、高速性(velocity)以及价值性(value)。⑧如果从大数据存在方式及其功能的角度来加以审视,即从其自身维度、支撑维度、工具维度和价值维度来考察,就形成了“四维说”(见图1)。 图1 大数据的“四维说” 从支撑维度看,大数据是技术平台。海量数据的收集、存储以及提取都不同于常规数据,需要全新的软硬件技术支持。无论是数据的查询还是分析,都必须基于特定的软件,这些技术以及用于存储和查询的系统的总和,便是支撑大数据分析的技术平台。 从工具维度看,大数据是研究方法。它已经进入生物信息学、生物医学、地震预报、天气预报等数据密集型的科学领域。图灵奖得主吉姆·格雷(Jim Gray)更明确指出,科学将进入继实验、理论、计算模拟之后的第四范式:数据密集型科研。⑩ 从价值维度看,大数据是潜在资源。麦肯锡报告指出,在医疗行业,大数据每年创造的价值预计超过3000亿美元,在零售业方面,大数据预计将提升利润60%以上。(11) 作为研究方法的大数据,为科学提供了一种新的研究方法。大数据概念由费亚德(Fayyad)在1995年的知识发现会议上首次提出,(12)主要研究方法是数据挖掘,其基本目标有两个:描述(descriptive)与预测(predictive)。通过描述以刻画海量数据中潜在的模式,并根据数据中潜在的模式来进行预测,从而发现数据中有价值的模型和规律。 数据挖掘的主要技术有:分类(classification)、关联分析(association analysis)、聚类分析(cluster analysis)以及异常检测(anomaly detection)。(13)分类是指通过数据学习得到一个分类模型(classification model),该模型将自变量对应到因变量,从而实现对自变量的分类。关联分析是指发现海量数据中有意义的数据关系,包括频繁项集和关联规则(association rule)。聚类分析是指将海量数据划分成有意义的多个簇(cluster),簇内的对象具有很高的相似性,不同簇中的对象很不相似。异常检测是指找出其行为很不同于预期对象的过程,这种对象称为离群点(outlier)。 目前,国际上对于大数据方法中的模式(pattern)与模型(model)并没有作区分。在谭(Pang-Ning Tan)等人编写的教材《数据挖掘导论》中(14),对于数据挖掘的定义使用的是模式一词,在分类这一具体技术中,使用的则是模型一词。W. 皮奇则指出,大数据的目标就是发现海量数据中潜在的模型(15)。在此意义上,大数据方法是一种模型方法。 二、大数据方法的变革 “1.与传统模型方法比较,大数据模型与传统模型有很大的区别” 例如,孙小礼将模型划分为物质形式的科学模型与思维形式的科学模型(见表1)(16)。在物质形式的模型中,模型来源属于天然存在物的便是天然模型,模型来源属于人工制造物的便是人工模型。在思维形式的模型中,根据模型不同的特点分为:理想模型、数学模型、理论模型以及半经验半理论模型。理想模型强调的是模型的抽象性,数学模型强调的是模型的数学基础,理论模型强调的是模型的理论基础,而半经验半理论模型强调的是模型的来源,既包含理论成分,又包含经验成分。 就它们的区别而言,首先,大数据模型并不具有物质形式,因此并非物质形式的科学模型;其次,大数据模型是根据海量数据以及算法得出,无理论介入,因此也非理论模型;再次,大数据模型从海量的数据出发,通过复杂的计算,最终得出复杂的模型,都是具体的数据运算,并无抽象过程;最后,大数据模型虽涉及算法,但大数据模型与数学模型的得出过程不同,数学模型是通过寻找研究问题与数学结构的对应关系而确定,大数据模型则是通过寻找海量数据与算法的对应关系而确定。显然,大数据的模型方法与这里列出的已有科学模型方法均不相同,是一种新型的模型方法,更多地体现为一种经验模型。 “2.大数据模型与统计建模比较,也有本质的不同” 数据挖掘作为一个多学科交叉的领域,涉及到数据库、统计学、机器学习等领域;从模型方法的角度来看,其中最为相近的是统计学。尽管数据挖掘涉及一定的统计基础,但数据挖掘与统计建模还是有本质的区别。(17) 首先,科学研究中的地位不同。统计建模经常是经验研究和理论研究的配角和检验者,而在大数据的科学研究中,数据模型就是主角,模型承担了科学理论的角色。 其次,数据类型不同。统计建模的数据通常是精心设计的实验数据,具有较高的质量;而大数据中则是海量数据,往往类型杂多,质量较低。 再次,确立模型的过程不同。统计建模的模型是根据研究问题而确定的,目标变量预先已经确定好;大数据中的模型则是通过海量数据确定的,且部分情况下目标变量并不明确。 最后,建模驱动不同。统计建模是验证驱动,强调的是先有设计再通过数据验证设计模型的合理性;而大数据模型是数据驱动,强调的是建模过程以及模型的可更新性。 由此可见,尽管大数据与统计建模均是从数据中获取模型,但两者具有很大的区别,大数据带来的是一种新的模型方法,大数据中的模型是数据驱动的经验模型。 “3.大数据模型与计算机仿真比较,同样也有很大的区别” 计算机仿真主要包含三个要素:系统、系统模型与计算机,联系着三个要素的内容有:模型建立、仿真模型建立以及仿真实验。(见图2)(18) 图2 计算机仿真的研究流程 第一,研究对象不同。大数据面向的是海量的数据,而计算机仿真面向的是根据系统建立的数学模型。因此大数据是数据驱动的,计算机仿真是模型驱动的。 第二,推理逻辑不同。大数据是根据数据归纳得出数据模型,而计算机仿真是根据模型演绎得出计算结果。 第三,自动程度不同。大数据从数据获取、数据建模以及预测均是计算机自动进行,而计算机仿真只有仿真实验这一步是自动的,仅仅占了科学研究过程中的一小部分。 第四,说明力度不同。计算机仿真的模型假设为模型的说明提供了坚实的基础,大数据由于建模过程的自动化而缺乏这样一个基础。因此前者说明力较高,而后者说明力较低。 第五,角色地位不同。计算机仿真主要承担了实验的角色,通过不断地试验来确定模型中的参数。大数据则在科学研究中,无论是对于模型的获得还是进行预测都占了主体地位。 第六,基础设施不同。计算机仿真可能涉及一台或多台计算机,但大数据却涉及更多的基础设置,包括自动获取数据的传感器、连接用户与电脑的网络设施等。 综上,尽管大数据与计算机仿真都运用了现代的计算机以及网络技术,但两者有着诸多区别。这也印证了吉姆·格雷的观点:大数据是继实验、理论以及计算机仿真之后的第四范式(20)。在此意义上,大数据带来了新的科学方法,代表着科学方法的变革。 三、大数据的方法论考察 笔者从四个方法论维度(见图3)对大数据方法进行考察。 图3 大数据方法相关的四个方法论维度 从逻辑的角度看,科学的论证有两种:演绎与归纳。演绎论证要求前提决定性地支持结论,而归纳论证并不要求这一点。(21) 如在大数据的分类中,分类是找出属性集到类标号的分类模型,决策树是其中广泛使用的一种分类方法。决策树是由结点和有向边组成的层次结构,结点包括:根结点、内部结点以及叶结点。下例所示的分类就是根据一个数据集(见表2)找到一个决策树(见图4)。(22) 在“是否属于哺乳动物”的决策树建立的过程中,首先建立根结点“体温”,然后建立两个有向边,分别为“冷血”与“恒温”,冷血有向边指向的是一个叶结点“非哺乳动物”;叶结点就意味着此处分类的结束。在恒温动物中,既包含哺乳类,又包含非哺乳类,因此无法成为叶结点,需要继续分边;进而根据内部结点“胎生”来进行分边,分为“是”与“否”两个有向边。恒温动物中是胎生的均为哺乳动物,因此到达叶结点“哺乳动物”,恒温动物中不是胎生的均为非哺乳动物,因此到达叶结点“非哺乳动物”。于是,完成了整个决策树。 图4 决策树建立过程示意图 尽管决策树只是分类中的一种算法,但其他算法的原理基本相同,均是从数据集中提取分类的模型,从而实现分类。模型的提取过程便是根据已有数据集进行归纳的过程。 关联分析是挖掘海量数据中符合特定支持度和置信度的关联规则,它根据已有数据统计得来,使用的是归纳法。聚类分析将数据按照相似程度划分为簇,与分类相比,可以称为非监督分类,使用的也是归纳法。异常检测是发现数据中的离群点,一种方法是通过发现数据集中的模型,从而寻找不能与模型完美匹配的点,模型是归纳得来的,检测是基于模型的,因此它属于归纳方法。 考虑大数据模型的预测方面,根据模型进行预测,属于从一般到个别的论证。大数据模型具有一定的预测能力,但并不具有必然性,属于归纳逻辑。 上述可见,大数据方法虽算法很多,但都是对不确定性的量化,属于归纳方法。 “2.主体:定律与模型” 科学定律的传统的理解,主要来自于休谟的因果观:心理习惯、恒常联系、必然性。这三种理解也就是关于科学定律的三种进路,前两种是规则性进路,第三种是必然性进路。规则性进路中有两派,第一派认为定律是心理习惯。第二派认为定律应当是最佳演绎系统的一部分。必然性进路则强调定律的必然性。(23) 在此可以注意到,首先,大数据模型是可以用来预测的,通过不断的预测可以形成心理习惯,因此符合心理习惯进路;其次,大数据模型是根据算法和数据得来,并不属于某个演绎系统的一部分,因此不符合系统进路;最后,大数据模型尽管可以预测,但并不具有必然性,因此不符合必然性进路。 由此可见,大数据模型并不属于某一个演绎系统,也不具有必然性,但由于它的预测性,因此符合主观意义下的心理习惯。的确,相比大数据模型,传统意义上的物理定律具有更好的系统性与必然性,从而成为科学的典范。但这并不意味着大数据模型就较差,大数据模型与物理定律只是应用于不同领域而已。面对一片飘落的羽毛,大数据及其模型方法一定会比物理定律予以更好的预测。 “3.内涵:因果与相关” 因果关系与相关关系是大数据哲学及其方法中的热门问题。舍恩伯格认为,大数据“不是因果关系,而是相关关系”(24)。《连线》杂志主编安德森则直截了当地指出,“相关关系取代因果关系”,“相关关系已经足够”(25)。他们的观点在学术界掀起了轩然大波。支持者有之,如纽约大学心理学家格雷·马库斯(Gray Marcus);(26)反对的声音更多一些,如W. 嘉利宝(W. Callebaut)就针对安德森的观点进行了批判。(27) 对于因果与相关的考量,可以归结为两个问题:(1)大数据方法是否只能获得相关关系?(2)相关关系是否能够代替因果关系在科学中的角色? 就第一个问题而言,在W. 皮奇看来,大数据方法不仅可以获取相关性,而且可以探索因果性。他从马奇的因果性定义出发,针对决策树与贝叶斯算法进行了分析,指出这两个算法中蕴含了消除归纳法(eliminative induction),因此大数据方法可以探索到因果性。(28) 事实上,按照马奇的“所谓原因是结果的一个非必要而充分的条件中的一个非充分而必要的部分”(29)的定义,从消除归纳法到因果性,需要极其严格的条件。大数据的算法中尽管蕴含了消除归纳法,但是并不能完全等价于它可以得出因果性。上文中指出在决策树算法中使用了求同法与求异法,从求同法、求异法到因果性还需要其他严格的条件。 消除归纳法可对充分条件作一个筛选,也可以对必要条件作一个筛选,但却不能从充分条件中筛选出必要条件来,也不能从必要条件中筛选出充分条件来。而因果性强调的是充分条件中的必要条件。 例如,医院可以通过患者的临床症状来对病情进行分类,但临床症状并非是病情的原因;医院也可以通过基因来对患者的病情进行分类,而基因是病情的原因。这两种情况使用的都是分类方法,却出现不同的结果。可见,W. 皮奇的论证只能说明大数据可以用来发现因果关系,但真正发现因果关系的并不是大数据,而是既有的数据与背景知识。背景知识决定了基因是病情的原因,而症状不是。因此,大数据方法发现的只是相关关系,如果大数据分析的对象恰好本身就有因果关系的话,那么大数据可以发现因果关系的具体模型。 就第二个问题而言,因果与相关的对立似乎隐含了一个假设,就是传统科学是必须追寻因果性的。然而事实并非如此,科学说明究竟是定律说明还是因果说明尚存争议(30)。既然大数据发现的并不是因果,那么因果说明这条路很可能就堵上了。但还有另外一条路,就是定律说明。如果将大数据所挖掘的数据模型当作定律,那么相关是否就可以代替因果了呢? 当蛋挞与飓风用品的关联规则被发现后(31),这一规则是否可以转变为“所有购买飓风用品的人都极有可能购买蛋挞”呢?如果可以,那么“所有购买飓风用品的人都极有可能购买蛋挞”就可以成为定律,尽管这个定律也许只适用于沃尔玛。那么大数据中的模型究竟离定律有多远呢?上文中已经指出,在定律的三条进路中,大数据符合其中的心理习惯进路,不符合系统进路与必然性进路。因此,如果对于定律的理解仅仅认为它是心理习惯的话,大数据中的相关关系是可以进行科学说明,因而也就可以代替因果性。 综上所述,大数据方法仅仅能够发现相关关系,而且只有在心理习惯的定律进路下,相关关系才能够代替因果关系在科学中的角色。 “4.功能:说明与预测” 说明与预测是科学的两个主要目标,在大数据的两个主要任务中,描述是发现既有数据的模型,数据是经验的表征,因此描述便是对经验的说明。 从说明的角度来看,大数据方法并不能够发现因果性,因此无法进行因果说明;在定律说明方面,大数据模型只符合心理习惯进路。可见,大数据模型的说明力较弱。此种例子比比皆是,银行将用户的违约率控制得很小,但客户经理并不知道原因,他只是按照算法来选择客户;Google可以翻译不同的语言,可设计它的工程师并不懂语法。(32) 从预测的角度来看,大数据的预测虽然不具有必然性,但的确拥有较好的预测。首先,大数据的模型会经过评估,从而达到一个较好的预测;其次,随着数据的更新,大数据的模型也会进行相应的更新;再次,大数据一般都是针对具体的问题,因而模型也是针对具体的问题,并不需要去与某个演绎系统进行对接;最后,大数据模型的来源是海量的数据,越多的数据蕴含着越多的经验信息,越多的信息在模型中得到体现,那么预测就会越准。 图5 科学的“说明-预测”象限图 第一象限是物理,科学大厦的经典代表,拥有着完美的演绎系统。不仅可以说明物体的运动,而且可以预测星球的轨迹。无论是说明力还是预测力,都是当前科学中的最优典型。 第二象限是混沌学,虽然可以通过基础理论予以说明,但很难进行预测。比如在对台风的研究中,科学家们可以通过气体动力学等科学知识给予很好的说明(33),但却无法对台风予以准确的预测。 第三象限是社会学,在此的理论并没有形成漂亮的演绎系统体系,不具有必然性,也无法形成心理习惯,在定律说明方面较弱。在因果说明方面,社会学只有在一定的前提假设下才可以进行一定说明,而且对于同一现象也有很多不同解释,因此说明力仍旧较弱。(34)在因果方面,社会学显然要比大数据强,因为人们可以根据常识予以理解。在预测方面,社会学很少作预测,即便预测了也很少成功。 第四象限是大数据,它在具有较高预测力的同时,却只拥有较弱的说明力。 大数据方法基于一种理论与经验的权衡,将会影响预测力较低的传统科学,为此类科学提供一种新的研究路径,实现较好的预测力。 四、大数据的核心特征及其意义 技术的发展带来了经验世界的改变,正如望远镜让人们看到了遥远的星球,海量的数据让人们看到了复杂的世界。如果说一个点并不能决定线性函数的形式,两个点并不能决定二次函数的形式,那么海量的点则可以逼近任何连续的函数。大数据,不仅仅是一种经验表征的新方式,更是一种探索经验背后知识的新方法。 美国大选的预测模型在设计的时候几乎没有用到任何政治学知识(35),J. 克雷格·文特尔(J. Craig Venter)通过基因测序仪发现了上千种新物种,即便他完全不了解这些物种的外貌和生活习性(36),但是,他们均以一种人们难以理解的方式获得了成功。 这种“难以理解”是大数据的核心特征。1997年,IBM计算机“深蓝”战胜了当时国际象棋世界冠军卡斯帕罗夫;2011年,IBM计算机“沃森”在美国智力竞猜节目《危机边缘》中战胜了最优秀的两位人类选手(37),它们都难以理解。这种难以理解突破了人类的智力,还要突破人类的心理习惯。大数据已经做到了前者,后者也只是时间问题。 这种“难以理解”,其根本原因是“低说明力”却“高预测力”,这预示了一种新的科学。现有的科学,要么可以通过科学定律予以说明,要么可以通过因果机制予以说明,又或者可以通过模型的隐喻类比予以说明(38)。可是,大数据模型是直接从具有数据形式的经验世界通过超计算量、高复杂性的算法挖掘得来。科学研究的总部直接建在了海量的数据里,忽视概念与理论,数据里的信息已经足够,只需要挖掘即可。 海量的数据蕴含着经验世界中丰富的信息,海量的数据便是海量的经验。开普勒看到了第谷的数据,从中找到了美丽的开普勒定律。物理学等经典科学致力于寻找宇宙中美丽的定律。然而,世界不仅仅是这样。世界中还有另外一个领域,这个领域中没有美丽的定律,有的只是复杂的、混沌的、大量的、不确定的经验,比如市场经济、社会学、地震预测等领域。在图五的第二象限与第三象限中预测力较低的科学将拥有一次提升预测力的机会,这个机会便是走向第四象限的大数据科学。 大数据是一种新的经验表现形式,一种新的科学研究方法,一种新的科学研究类型。在经验层面,大数据带来了“无处不在”;在方法层面,大数据带来了“难以理解”;在科学层面,大数据将带来“新的世界”(见图6)。 图6 大数据时代的变革 |