在调查数据的生命周期中,数据管理是一个致关重要的环结。数据能否有效的被开发利用,数据生命周期的长短,在很大程度上取决于数据管理的质量。从通过实地调查获得原始数据,到对数据进行分析之间,还有复杂的数据管理过程。一般来说,数据管理主要由以下内容:
- 数据编码
- 数据清洗
- 数据标签化
- 变量派生
- 合并与匹配数据
- 数据建档
其中,数据清洗所包括的具体项目有:
- 问卷数据的单变量非法值检查(含连续变量的不合理值检查)。
- 问卷数据的逻辑检查,项目为:
- 跳答题的检查。
- 复选题的检查。
- 偏好次序题的检查。
- 依据问卷问题之间的关联性,做逻辑检查。
- 问卷数据的开放题检查,项目为:
- 确认选项(例如,选“其他,请说明”)与文字纪录之间逻辑的一致性。
- 开放题中的文字内容若与固定选项完全相同,则归入该选项。
- 缺失值处理
- 生成逐逻辑检查项、逐变量缺失情况变量,作为判定数据质量的指标
- 生成数据逻辑错误纠正、数据缺失插补记录。
- 生成数据清理报告