学习100个stata操作(31/100)
小孔读博日记
2024-07-23 12:33:37
今天介绍一个简单的小操作帮你3秒剔除重复数据。很多时候,由于我们数据处理过程中的某些原因,导致数据集中存在很多重复数据,此时需要我们剔除重复数据。
操作如下:首先,我们需要对数据进行分组并排序,比如,我们的数据为个体-年度的面板数据,可以根据个体-年度进行分组,生成分组:
egen idyear = group(id year)
此时,重复的数据就被分到了同一个组中,我们需要做的就是在每个分组中仅保留一个数据。然后,我们可以标记每个组中的第一个观测值
by idyear: gen to_keep = _n == 1
当然,如果你想保留每组的最后一个观测值,可以使用_n == _N来生成to_keep变量。
接着,我们可以删除那些没有被标记的观测值
drop if to_keep == 0
此时我们已经删除掉了所有的重复数据,最后,删掉辅助变量:
drop to_keep
0
阅读:0
轻松熊
用duplicates drop是不是更方便呢,请问这个方法和duplicates drop有区别吗?