PSM和HTE的异同:以感冒场景为例
笔者在刚开始接触PSM和HTE时,对这两个方法算出来的结果十分困惑:既然这两个方法都是计算实验处理效应,那么选择PSM还是HTE又有什么不同呢?随着笔者对这两个方法的深入研究,发现这两个方法的本质不同在于:
PSM的计算结果是ATT,HTE的计算结果是CATE;
要理解这个差异,首先要理解什么是ATT和CATE。我们以平时常见的感冒场景为例:当我们感冒时,我们可以选择吃感冒药;也可以不吃感冒药,多喝热水自己抗过去。这里我们想探究的是吃感冒药对健康有多大影响,那么我们定义T1代表吃感冒药,T0代表不吃感冒药,Y为健康评分。协变量X可能有很多,比如年龄、性别、近1年就医次数等等。
缩写 | 英文 | 中文 | 数学表达 | 例子 | 估计方法 |
ATE | Average Treatment Effect | 平均处理效应 | E[Y1-Y0] | 感冒药对所有人群的效果 | |
ATT | Average Treatment Effect on the Treated | 受处理人群(实验组)平均处理效果 | E[Y1-Y0|T=1] | 感冒药对所有吃感冒药人群的效果 | PSM |
CATE | Conditional Average Treatment Effect | 条件平均处理效应 | E[Y1-Y0|X=x] | 感冒药对所有吃感冒药的年老、男性人群的效果 | HTE |
那么,以上统计量之间应如何相互转化呢?
为了简化问题,我们假设协变量X只有年龄(年轻、年老)和性别(男、女),所以人群可以划分为以下四组,四组人群HTE的估计结果如下:
组别 | 年龄 | 性别 | CATE | 总样本中Gn的占比 | 吃感冒药(T=1)样本中Gn的占比 |
G1 | 年轻 | 男性 | CATE1 | 25% | 15% |
G2 | 年轻 | 女性 | CATE2 | 25% | 30% |
G3 | 年老 | 男性 | CATE3 | 25% | 20% |
G4 | 年老 | 女性 | CATE4 | 25% | 35% |
那么,对于ATE和ATT我们有:
我们该怎么理解上面的公式呢:
如果我们知道某特定X群体在总样本中占比,我们可以利用CATE加权计算得到ATE;
如果我们知道某特定X群体在实验组(T=1)中的占比,我们可以利用CATE加权计算得到ATT。