本帖最后由 Stata教授 于 2023-7-13 15:03 编辑
Stata数据缺失如何处理?
1.首先判断是否存在缺失值:
(1)使用codebook命令: codebook VAR1 VAR2 ……
//统计每个变量的详细情况,其中有缺失情况 -------------------------------- v1 (unlabeled) --------------------------------
type: numeric (float) range: [1,1] units: 1 unique values:1 missing .: 0/80 tabulation: Freq. Value 80 1
(2)使用missing命令: gen missing1=missing(VAR1 VAR2)
//生成missing1新变量,当VAR中的任一变量有缺失值的时候,missing值为1,否则为0
(3)使用nmissing/npresent命令: ssc install nmissing //安装外部命令nmissing ssc install npresent //安装外部命令npresent nmissing //统计数据缺失的变量 npresent //统计没有数据缺失的变量
(4)使用mdesc命令: mdesc //显示缺失值数量,总数量以及缺失比例
2.对缺失值进行处理
(1)在财务领域,我们一般不对缺失值进行插值等补充处理,缺失值也不会对我们的结论产生较大的影响。
(2)我们会将具有缺失值的样本剔除出我们的观测样本,命令如下: gen missing1=missing(VAR1 VAR2) //生成虚拟变量 keep if missing1==0 //仅保留没有缺失值的数据
|