建立在科学数据共享基础上的数据开发与利用已成为国际科学界的一项共识,这一点是经过国际科学界几十年的努力发展而成的。现代科学研究比较发达的国家很早就已经认识到了科研累积数据的宝贵价值,以及对其进行进一步整理、存储、发掘和利用的重要性。早在上个世纪60年代,美国国家科学基金会(National Science Foundation, NSF)就指出它资助的研究项目所积累起来的社会调查数据是“一笔极其宝贵的国家财富”,并委托密歇根大学成立一个项目组建设一个“国家科学基金(NSF)调查数据库”。在这个数据库的基础上,密歇根大学于上世纪70年代建成了“校际政治与社会研究联合数据库”(Inter-University Consortium for Political and Social Research,ICPSR)用来存储和深入利用美国政府资助的所有研究项目所产生的社会与经济数据。目前,ICPSR的政府数据中心已发展成全球最大的学术数据库,存储有约5,500个研究项目的100,000份数据及相关信息文档,拥有500多个政府、科研机构和大学用户。美国国家科学基金会(NSF)在2003年将其评价为“一份重大的人类科学遗产,将对人类科学发展产生深远的影响”。而采取与ICPSR数据中心类似的模式,世界其他国家也主要以国家科学研究基金项目为依托,建立了自己的科学数据中心:在欧洲,有20多个国家级的科学数据中心,并且共同成立了一个广泛而统一的委员会CESSDA (Council of European Social Science Data Archives);在亚洲,日本、韩国都已建成了类似的数据库或数据中心。

这些数据库和数据中心的建立,对各自国家以至国际科学研究产生了极其重要的推动作用,大大提高了科学投资的效益和产出,反映了科学研究的累积性特点。这些数据库和数据库本质上都是科学数据共享平台,反映了科学研究的开放性与共享性。数据共享对于科学研究是至关重要的,具体来说,数据共享对科学研究的重要性在于:

  1. 数据共享让科学的可检验性和可重复性成为可能,这是科学性的重要前提;
  2. 数据共享所带来的开放性促成了科学研究的自纠正性;
  3. 数据共享推动了科学研究分析和观点的多样性;
  4. 数据共享保证和科学研究的累积性和科学创新;
  5. 数据共享节约了科学研究的成本,提高了科技投入的产生和效率;
  6. 数据共享为科学研究的培训提供了重要资源。

就我国的情况来说,数据共享的传统在科学界尚未形成,国内这方面的工作在有很多都是空白。建国以来,我国科学各学科进行了大量的实证性研究项目。这些项目绝大多数都包括社会调查的内容,其中尤以经济学、管理学、社会学、人口学、民族学、新闻学、统计学等最为突出。这些调查研究直接面对中国社会与经济的改革开放,深入社会,采用科学的原则和方法,从各个不同的角度、问题、及关注点出发,采集了大量的第一手调查数据。这些调查数据科学而客观的反映了我国经济社会各个方面,推动了我国科学研究的发展和繁荣,也为相关国家政策的制定提了坚实而可靠的科学依据。

但是,我国目前在对这些宝贵的第一手调查数据的共享及挖掘和利用上,还存在一定的问题,主要表现在如下几个方面:

  1. 各研究项目所设计的调查涉及到我国社会的各个重要领域。但是,通过这些项目所收集和产生的调查数据大都为研究者个人所拥有和使用。研究者关注点转移之后这些数据实际上被封闭起来,缺少交流和共享,其它相关研究者无法接触和了解这些数据,更无从使用这些资料,结果造成大量的国家公共资源仅限于少数人一次性使用,从而大大缩短了科学数据的生命周期,不利于对科学数据的有效利用。
  2. 由于缺乏这些数据缺乏交流和共享的机制,我国科学项目所设计的调查中出现大量重复研究的现象,有限的研究经费资源被低效率使用。
  3. 由于缺乏数据交流和共享的机制,也同时在一定程度上丧失了同行和社会对调查数据质量的公共评价。出于对数据质量的不了解或担心,即使是相似的调查数据也无法累积起来,在很大程度上影响了比较研究和趋势研究,也无法保证提供政策咨询服务的质量。
  4. 由于缺乏一个统一的数据查询与使用系统,新的调查研究项目往往需要一切从头开始,使得后来的研究者无法有效地借鉴前人的研究成果和经验教训,同时又延长了项目的研究周期,影响了调查研究质量的不断提高。
  5. 各个调查数据所产生数据格式不统一,进行对比性研究的可能性较小,不利于数据的深度挖掘。
  6. 对数据缺乏制度性的保护和管理措施,数据遗失现象严重,不利于学术积累和发展。
  7. 未能对现有的大量的社会调查数据进行整理和汇编,从横向和纵向两个方面进行深入挖掘,提出具有综合性、全局性、趋势性的结论。

中国国家调查数据库(CNSDA)的建设,就是基于以上情况,结合中国的现实情况,建设一个完全开放的调查数据库,作为科学研究数据于共享的平台,以进一步整合和深入开发现有的科学数据资源,为广大科学研究者、政府决策部门以及其他社会公众士提供科学的调查数据,为促进我国的社会、经济发展和社会科学的繁荣服务。

中国社会调查开放数据库这个开放的学术平台需要学界的共同建设,因此,我们希望各个机构和个人能把持有知识产权的调查数据和相关的文档提供给我们,如果出于一些原因,暂时不能提供调查数据及相关资料,也请提供调查的名称、抽样框,样本量,执行时间等信息提,以方便我们建立数据库,反映中国数据采集状况的全貌。

中国学术调查数据资料库数据提交表

调查名称
调查数据的所的者(单位或个人)
联系人
电子邮件
地址
邮编
电话
调查对象:
调查范围:
抽样方法(单选)
简单随机抽样
系统抽样
分层抽样
多阶抽样
整群抽样
非概率抽样
其他抽样方法(请注明)
计划样本量
有效样本量
调查完成时间
备注:
提供的信息包括以下哪些文档?(多选)
调查问卷
抽样方案
访员手册
编码手册
原始数据
统计报告
其他文档(请注明)
1. 
2. 
3. 
如提供了原始数据,请问数据为何种格式?(单选)
SPSS格式
SAS格式
STATA格式
EXCEL格式
CSV格式
纯文本格式
其他格式(请注明)