甜甜圈检验用于克服RDD数据中人为操纵和数据堆积问题。第一,人为操纵问题。越接近断点的样本越有动机去进行人为操纵等外部有意的干预,这会导致断点附近样本不满足随机分布。第二,数据堆积问题。数据堆积指取配置变量某些值的观测值过多的现象。导致这一现象的原因包括受访者自报告某些信息时倾向于向某个数值近似,测量标尺的精读有限等。譬如,调查数据中受访者自报告的身高在160cm、170cm和180cm等取值上堆积。虽然数据堆积不源于经济个体的逐利动机,且可能出现在除断点之外的其他地方。但如果结果变量受配置变量的堆积现象影响,也会使RDD回归结果有偏。此时,可以去掉断点附近的某些观测值再做RDD估计。由于去掉断点附近的某些观测值后的数据就像一个“甜甜圈”,故称作“甜甜圈检验”(谢谦等,2019)。至于去掉断点附近多少样本,暂时并不存在标准做法。为展示代码,我们在这里依次删除了断点附近1%-10%的样本来进行上述检验。
参考文献:[1]谢谦,薛仙玲,付明卫.断点回归设计方法应用的研究综述[J].经济与管理评论,2019,35(02):69-79.