因果关系初探:相关与因果关系的区别

因果关系初探:相关与因果关系的区别

首页游戏大全因果关系中文版更新时间:2024-06-08

一、引言

在之前的文章中,我们了解到探索因果关系对于理解世界和解决问题具有重要意义。那么到底何为因果关系呢?我们需要对因果关系有一个明确的概念描述,才能进行后面探索因果关系的任务。本篇文章就和大家一起来聊聊因果关系的定义。

众所周知,相关不等于因果。相关关系深入人心,简单易懂。故我们介绍因果关系时,喜欢拿相关关系一起来讨论比较。本文则从定义、表现和层级三个方面来讨论相关关系与因果关系的区别,以此来明确因果关系的定义。

二、相关与因果的区别:定义方面

无论是相关关系还是因果关系,它们都是用来描述变量之间的联系,但它们之间存在着本质的区别。从定义的角度来区分,相关关系是指变量的分布之间存在相似或者相悖的趋势,即正相关或负相关。在统计学中,分布用来描述变量在不同取值的概率,如下图所示。

上图展示了身高和体重的分布存在类似的趋势,我们说它们存在着正向的相关关系。在相关关系中,两个变量的地位是同等的,即相关关系是对称的。但是这种关联并不一定意味着其中一个变量的变化会导致另一个变量的变化。一般来说,身高较高的人往往体重也较重。但是身高并不是导致体重增加的原因,因为还有其他因素(如饮食习惯、运动量等)也会影响体重。

相比之下,因果关系则是指一个变量的变化会直接导致另一个变量的变化。在因果关系中,变量之间的地位不是对等的,即因果关系不是对称的,具体区分为原因变量和结果变量。原因变量是导致结果变量发生变化的直接因素,反之则不成立。例如,摄入更多的卡路里会导致体重增加,因此摄入卡路里是导致体重增加的原因,而体重增加则是结果。

三、相关与因果的区别:表现方面

从表现的方面来看,相关关系和因果关系也存在着明显的区别。相关关系可能呈现出虚假的结论,也就是说,两个变量之间的相关可能是由于其他因素的影响而产生的,而并非真正的因果关系。例如,在某个城市中,冰淇淋销量和犯罪率之间存在着正相关关系,但这并不意味着吃冰淇淋会导致犯罪率上升,而是可能由于其他因素(如气温、人口密度等)同时影响了冰淇淋销量和犯罪率。再例如我们之前举过的案例,如下图所示,从整体角度来看得到了作息规律与某疾病的患病率之间虚假的正向相关关系。

案例图:患病率与作息规律关系分析

作为对比,因果关系是可解释的。我们可以通过刻画因果关系,用原因变量的变化来解释结果变量的变化。如下面因果图所示,作息规律与患病率之间的正向相关关系是由它们的共因年龄所引起的。虽然随着年龄增长,人们更加注重作息规律,但是该疾病也同时随着年龄增长而提升患病率。随着年龄因素占据了患病主要原因时,则呈现出整体来看作息越规律,患病率越高的误导结论。

因果图:年龄作为患病率与作息规律的共因(混杂)

四、相关与因果的区别:层级方面

从层级的方面来看,因果关系相较于相关关系是更高层级的概念。图灵奖得主、因果推断领域大佬Judea Pearl则提出了三层因果层级来说明这些概念,如下图所示。

上图展示了一个递进的从相关到因果的概念图。第一层则是相关关系,Judea Pearl指出该层级用来描述关联,是可以直接观察到的现象。这种变量分布之间呈现出的趋势可以直接从数据中计算,表示为。以上面案例分析,从案例图中可以直接观察到,从整体角度来看,患病率与作息规律呈正相关,即作息越规律,患病率越高。

第二层称为干预,它是因果关系的概念,其代表如果人为干预某个策略,结果会怎么样?表示为,代表人为使处于某个状态。还是拿上面的案例为例,干预代表人为的调整某个群体的作息规律程度,该群体的患病概率会如何变化?从案例图或者因果图中我们可以得知选定任意年龄段的群体,使他们作息更规律后,理论上患病率应该是下降的。这里我们发现干预和相关的结论是相反的,原因是这个案例研究的变量对象“作息规律”和“患病率”之间存在“年龄”这个共因,也称为混杂。很明显,干预的结论是正确的,所以它是因果层面的概念。

通过同一个案例的分析,我们需要明确的是第一层相关关系通向第二层干预的道路上可能存在各种各样的混杂因素。想计算干预层级的需要消除各种混杂使得相关等于因果,即可计算干预的数值了。至于具体消除混杂的方法我们会在后续的文章中逐渐介绍给大家。

现在来到第三个层级:反事实,也是因果关系的概念。反事实指在既定事实下,某个个体采取了与现实不同的策略时,结果会怎样?表示为,简写为。对于上述案例,反事实则代表如果患者A当初作息更规律的情况下,其患病概率是多少?

反事实与干预都是因果关系中的概念,计算它们都需要消除混杂因素的影响。但是它们的层级不同,主要的不同之处在于两点:1、干预是群体层面的概念,反事实是个体层面的概念。群体层面的概念不需要建立量化的因果方程,通过群体的均值估算即可;而个体层面的反事实需要建立定量的因果方程,如案例中患病率和作息规律的映射方程,才能计算某人作息更规律50%的情况,其患病率的值;2、干预效果可以观测到,反事实结果无法观测到。评估干预效果时,的取值在群体中可以观测到,消去混杂影响后可以直接评估;然而反事实是指某个个体在既定情况下,其他策略的结果取值。对于任意个体来说,由于时间无法回溯,这是无法观测到的,则需要建立稳定的定量因果方程进行推理。

明确以上两点区别就可以理解为什么反事实相较于干预是更高层级的因果概念。当然,这里面涉及的因果方程的构建我们后续也会逐渐展开介绍。

五、总结

总之,相关关系和因果关系虽然都涉及到两个或多个变量之间的联系,但它们之间存在着本质的区别。本文我们从定义、表现和层级三个方面来介绍它们之间的区别。并且着重介绍了从相关到因果的三个层级的概念及它们的区别。了解这些区别对于我们正确理解数据、进行科学研究和做出决策都具有重要意义。

最后再介绍一下因果推断领域的另一位大佬人物Donald Rubin,因果推断两大框架之一的潜在结果框架的主要创始人。Judea Pearl则提出另外的一个框架结构因果模型。对于上面介绍的Judea Pearl提出的因果层级中的干预和反事实,Donald Rubin的潜在结果框架中也有对应的概念,即平均策略效应(干预)和个体策略效应(反事实)。他们分别从条件概率(Judea Pearl)和策略效应差异(Donald Rubin)的角度定义来因果效应,本质上异曲同工。后续我们会进一步介绍他们各自在因果推断领域做出的贡献。

Donald Rubin:从策略效应差异角度描述因果效应,引入“潜在结果”等概念。

先收藏,后点赞,关注ZZ,不迷路!后续我们继续讨论具体的因果推断方法,以量化干预和反事实层面的因果效应。

ZZ数据分析,网易资深数据分析师,专注数据科学、因果推断知识分享。关注之后私信我,回复数字“02”,送你一份因果推断学习大礼包。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved