精致研学

您的位置 首页 学术成果

由大数据引起的对因果与相关的讨论(三)

作者:齐磊磊  华南理工大学 科学技术哲学研究中心

四、大数据视域下的因果与相关

大数据权威发言人舍恩伯格认为,“知道’是什么’就够了,没必要知道’为什么’。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己’发声’”。“他对相关性的至高地位进行了有力的辩解:’寄希望于识别因果关系是一种自得其乐的幻想,大数据必将打破这种幻想’”。《连线》杂志主编克里斯·安德森有着更为激进的看法:“相关取代因果,科学的进步甚至无需一致的模型、统一的理论和任何机理上的解释。”笔者在“大数据经验主义”一文中指出这样的看法是片面的。黄欣荣教授对此写了一篇商榷文章。他认为:“在大数据时代,由于数据的暴增,寻找数据间的相关性比因果性更重要,大数据主义承认事物的因果性,但更应该把握事物的相关性。”董春雨教授等人撰文提出:“之所以出现相关优于因果,相关取代因果等的极端看法,实际上是他们没有认清二者之间的区别与联系。”随后他们分析了因果与相关的区别与联系,总结说:厘清因果性之于相关性的关系和意义,是大数据哲学探讨中必须深究的问题之一。”戴潘博士通过分析大数据知识发现的分类树算法表明:“大数据所主张的相关关系来取代因果关系,其实并不是要抛弃因果关系,通过分类树算法的分析,可以发现其中所蕴含的因果结构。”对比分析这些观点,引起关注、讨论与商榷的主要焦点还是因果与相关的关系问题。

从大数据的立场出发,因果与相关,哪个更重要?相关关系是否可以替代因果?回到上面我们对概念的讨论,上一小节我们将相关关系具体分为6种情况时的结论有:相关关系包含了因果关系,因果关系必定是相关关系。按照这样的表达,相关关系既然包含了因果关系,那么大数据研究者们提出的“只要关注相关关系就够了”这样的说法也是正确的。但也有另外一种情况,即情况(5)(6)所表示的:相关关系不一定只是(决定论的)因果关系,它也包括统计因果与非因果相关。所以,只有在情况(5)(6)的前提条件下,从大数据出发对因果关系与相关关系所进行的讨论或争论才是有意义的。

进一步地追问:如果承认只有在情况(5)(6)的前提下才能对大数据视域下的因果与相关进行讨论,那是否就意味着情况(1)-(4)这些因果关系的各类表现不再是相关关系?显然不行。从逻辑上说,因果关系必定是相关关系,情况(1)-(4)是可以被列入相关关系的归纳式定义中的。尽管这样的一种定义与大数据发言人的表述有相异之处,但只要我们共同约定他们的论点前提在情况(5)(6)的条件下是成立的,就是站得住脚的。

再回到“大数据经验主义”一文。文中我们为了说明传统的科学方法论和大数据经验主义在因果与相关关系上的分歧,给出了一个简单的图示。”仔细推敲图中用一个维恩图表示的“因果与相关的缠结”,截取下来如图所示。此图中因果与相关有个交集,结合上面的分析,这个交集表示统计因果相关,它既是因果又不是因果。说它是因果,主要指的是事物之间常常有一个概率的关系,是一个概率统计的因果。说它不是,主要是因为我们通常所说的因果关系,主要讲的是决定论的因果关系,一般不涉及概率统计因果。所以,因果与相关的交集部分不是拉普拉斯的决定论。拉普拉斯的决定论是世界上你知道一切的原因,未来的一切都可以了如指掌。但实际上并不是如此,这样就有一个概率因的问题。通常,概率因可以有两种解释,一种解释是它有多少概率成为原因,另一个是概率本身是一个结果或者原因,概率本身本来就是个概率,或者说它的出现本来就是个概率。这是从本体论上说,如果说有多少概率成为原因,那么实际因果的充分条件就必须找出来。统计概率因果的概念之所以必要,第一是能使我们从拉普拉斯决定论中解放出来;第二是使我们的传统科学哲学的方法论与大数据方法论协调起来,避免争论。大数据并非拉普拉斯决定论,大量问题是统计方法论,需要用统计因果相关来进行说明。另一方面,有些非本质主义者会重视概率因果,这样做的好处在于说明原因时不是太死板,而是说有多少概率成为原因。因此,整个并集区域包括三个部分,如图所示:(决定论的)因果集(白色区域),统计因果相关集(黑色区域)和非因果相关集(灰色区域)。上面定义中的情况(1)-(4)是属于(决定论的)因果集,情况(5)属于统计因果相关集,情况(6)属于非因果相关集。

统计因果相关是一个不确定的关系,但是自然律有个重复性,它不是说不确定,而是在自然界中是反复出现的。自然律是和事物的本质或者是新本质主义的自然类、它的倾向性或者是它的本质联系、它的实体发生一种比较稳定的关系。所以自然律不一定是因果律,非因果律也可以是自然律。

这样,经过以上分析,相关与因果中间交集部分是统计因果。有了这个统计因果,不管是确定性还是不确定性的关系,统计因果都可以帮我们分类说明。相关不一定是确定性的,也不一定是不确定性的,任何相关都是一个函数,或者像塔尔斯基所说的关系,统计因果相关当然也是个关系。同样,大数据视域下对因果与相关的讨论依然可以借助统计因果相关将两者联系并区别开来,而由大数据引起的关于因果与相关的争论也由于统计因果的细分而清晰起来。

例如 2009 年谷歌利用搜索“发烧”“头痛”、“咳嗽”等特定词条频率的增加预测了禽流感的案例中,特定词条与禽流感之间有时是一种非因果相关。因为有些人没有任何症状,但看了新闻报道或者其他原因,他也会搜索这些特定词条,这并不代表禽流感会出现。同时,有一些人确实是因为有了相关症状后去网上搜索。所以网上搜索特定词条的人可能与禽流感相关,但这是一种概率性的,至于概率是多少,需要进一步去数据分析与统计。即使概率极高,仍不是实际原因的充分条件。虽然政府最终会去查找引起禽流感的真正原因,但运用大数据分析出的导致禽流感的概率条件不再使我们只拘泥于拉普拉斯式的决定论因果中,统计概率因果找到了协调传统科学哲学的方法论与大数据方法论的中间桥梁,是大数据研究的一个中间驿站。

在大数据时代,海量数据带给我们诸多恩惠,大数据将“大”有可为,但不管是商界还是科学研究中,“放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落,如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始。”所以,为了将来的人类仍然还是人类,让现在的我们继续保持与生俱来的天性,在大数据时代,运用大数据去追问“为什么”。

声明:该文观点仅代表作者本人,国学百科网系信息发布平台,仅提供信息存储空间服务。

为您推荐

发表留言

发表评论

邮箱地址不会被公开。

联系我们

联系我们

157-0115-5530

在线咨询: QQ交谈

邮箱: wdgxbk@163.com

工作时间:周一至周五,9:00-17:30,节假日休
关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
大数据库
返回顶部