最近在学习因果推断的相关知识,同事推荐了一篇文章Casual inference in economics and marketing,刚好边学习边形成自己的学习笔记,加深理解。
原文:Casual inference in economics and marketing
作者:Hal R. Varian
怎么排除混杂变量的干扰?除此之外还有什么问题?https://www.pnas.org/content/113/27/7310
答案是控制实验。
通过实验了解"Impact the treatment on the population",分两种情况,一种是"impact of the treatment on the treated",即评估治疗者的治疗效果如何;一种是"intention to treat",评估有意向治疗但还没有治疗者的治疗效果如何。
第二种情况显示是比较困难的,因为这是一个还未发生的效果,且存在着参与者收到邀请但未必会同意邀请的情况。第二种情况就是我们所说的“counterfactual(反事实)”。
举个例子:
比如现在要开展一组实验对比新药的效果,实验组是接受了新药治疗的人,对照组是未接受新药治疗的人,那么反事实在这里是什么呢?就是应该接受新药治疗但没有接受的人,我们无法知晓那些本应接受新药治疗但没有接受的人的治疗效果,我们在选择样本的时候会天然地会忽略这些人。
在研究中,反事实推断就是对于实验组中的研究对象,如果使用对照组的干预方法,潜在的结果是什么;对于对照组中的研究对象,如果使用实验组的干预方法,潜在的结果又是什么。
那么怎么解决counterfactual的问题?
一种是"selection on observables",通过构建一个counterfactual的预测模型,从而消除影响;另一种是"selection on unobservables",尽可能寻找自然实验让选择变得随机。
我们来看下因果推断的基本原理:
Outcome for treated - Outcome for untreated
=[Outcome for treated - Outcome for treated if not treated]
[Outcome for treated if not treated - Outcome for untreated]
=impact on treatment on treated selection bias
“impact on treatment on treated”是我们最终想得到的actual outcome,而仅仅通过实验组和对照组的比较会存在selection bias的干扰。
理解因果推断最关键的概念是区分actual outcome(what happends to the treated)和counterfactual(what would have happend if they had not been treated),由于counterfactual实际上是一个未发生的事件,因此我们需要通过一些其他的方法对它进行估计。
如果抽样是足够随机的,那么等式的第一项impact on treatment on treated是总体的样本估计,而第二项则是0。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved