2013年统计师考试时间为10月13日,为了帮助考生系统的学习统计师考试课程,全面了解统计师考试的教材重点,小编特编辑了2013年统计师考试统计基础理论及相关知识辅导资料,希望对您参加本次考试有所帮助!
统计数据的搜集
统计数据的搜集,涉及数据的计量尺度与类型、数据调查的组织方式与数据搜集的具体方法、调查方案的设计以及对数据的质量要求等内容。
一、统计数据的计量与类型
统计数据计量(Measurement,亦称测量)的质量,影响甚至决定统计描述和分析的质量。数据计量的准确程度,视所观察的客体及其标志的性质和测量工具而定。自然科学以物理、化学或力学的某些特征为观察现象,自然界的客体也比较稳定,而且大多有较精确的仪器作为测量工具。故自然科学的计量在精度上领先于社会科学。社会科学以人类行为、社会关系、价值观念等为研究对象,甚至涉及被研究者的隐私(Privacy),而不易得到研究对象的合作;即使有时研究对象给予合作,由于计量的原因,也很难取得准确的数据。所以,改进并确切运用测量工具,始终是社会工作者的一项重要工作。要改进并确切运用测量工具,获取令人满意的统计数据,首先就要考虑数据的计量尺度与类型。
(一)数据的计量尺度
在计量学的一般分类方法中,依据对事物计量的精确程度,可将所采用的计量尺度由低级到高级、由粗略到精确分为四个层次,即名类尺度、顺序尺度、区间尺度和比尺度。
1、名类尺度
名类尺度(Nominal scale,亦称分类尺度、列名尺度等)是这样一种品质标志,按照它可对研究客体进行平行的分类或分组,使同类同质,异类异质。例如,按照性别将人口分为男、女两类;按照经济性质将企业分为国有、集体、私营、混合制企业等。这里的“性别”和“经济性质”就是两种名类尺度。名类尺度是最粗略、计量层次最低的计量尺度,利用它只可测度事物之间的类别差,而不能了解各类之间的其他差别。名类尺度计量的结果表现为某种类别;但为了便于统计处理,例如为了计算和识别,也可用不同数字或编码表示不同类别。比如用1表示男,0表示女;用1表示国有企业,2表示集体企业,3表示私营企业,等等。这些数字只是不同类别的代码,决不意味着它区分了大小,更不能进行任何数学运算。名类尺度能对事物做最基本的测度,是其他计量尺度的基础。
2、顺序尺度
顺序尺度(Ordinal scale,亦称序数尺度、顺位尺度等)是这样一种品质标志,利用它不仅能将事物分成不同的类别,还可确定这些类别的等级差别或序列差别。例如“产品等级”就是一种测度产品质量好坏的顺序尺度,它可将产品分为一等品、二等品、三等品、次品等;“考试成绩”也是一种顺序尺度,它可将成绩分为优、良、中、及格、不及格等;“对某一事物的态度”作为一种顺序尺度,可将人们的态度分为非常同意、同意、保持中立、不同意、非常不同意,等等。显然,顺序尺度对事物的计量要比名类尺度精确些,但它至多测度了类别之间的顺序,而未测量出类别之间的准确差值。因此,顺序尺度的计量结果只能比较大小,不能进行加、减、乘、除等数学运算。
3、区间尺度
区间尺度(Interval scale,亦称间隔尺度、等距尺度、定距尺度等)是能测度事物类别或次序之间间距的数量标志,更具体些说,区间尺度是可将事物区分为不同类别,对这些类别进行排序,并较准确度量类别之间数量差距的一种计量尺度。该尺度通常使用自然或物理单位作为度量单位,如收入用人民币“元”度量,考试成绩用“百分制”度量,温度用摄氏或华氏的“度”来度量,重量用“克”度量,长度用“米”度量等。区间尺度的计量结果表现为数值。区间尺度的数值可做加、减法运算,例如,考试成绩80分与90分之间相差10分,一个地区的温度20°C与另一个地区的25°C相差5°C,等等。但不能做乘、除法运算。而且,区间尺度没有绝对零点。
4、比尺度
比尺度(Ratio scale,亦称为比率尺度)的计量结果也表示为数值,跟区间尺度属同一层次,有时对两者可不作区分。比尺度这种数量标志不仅能测度各类别的大小和多少,还有一个绝对零点(Absolute zero)作为起点。这个绝对零点是它跟区间尺度的明显差别,就是说,区间尺度中没有绝对零点,即使其计量值为“0”,这个“0”也是有客观内容的数值,即“0”水平,而不表示“没有”或“不存在”。例如,某个学生统计学的考试成绩为“0”分,这个“0”分是他的统计学的客观成绩,并不表示他没有考试成绩或没有任何统计学知识;一个地区的温度为0°C,这表示一种温度的水平,并不是说没有温度。而比尺度中绝对零点的“0”,表示“没有”或“不存在”。例如,一个人的身高为“0”米,表示这个人不存在;一个人的收入为“0”,表示这个人没有收入;一个产品的产量为“0”,表示没有这种产品;等等。现实中,大多数场合人们使用的都是比尺度。
比尺度与上述三种计量尺度相比还有一个特性,就是可以计算数值之间的比值。例如,一个人的月工资收入为600元,另一个人的为300元,可以得出一个人的收入是另一个的两倍。但区间尺度由于不存在绝对零点,就只能比较数值差,而不能计算比值。比如,可以说30°C与15°C之差为15°C,而不能说30°C比15°C热一倍。可见,比尺度可以做加、减、乘、除法运算。
上述四种计量尺度对事物的计量层次是由低级到高级、由粗略到精确,逐步递进的。高层次的计量尺度可以计量低层次计量尺度能够计量的事物,但不能反过来。显然,可以很容易地将高层次计量尺度的计量结果转化为低层次计量尺度的计量结果;将考试成绩的百分制转化为五等级分制就是一例。
(二)数据的类型
在第一章中,我们曾把统计标志分为品质标志和数量标志,这两种统计标志的标志表现在广义上都可叫做统计数据。更确切些说,在计量学的意义上,统计数据是采用某些计量尺度对事物进行计量的结果,但采用不同的计量尺度会得到不同类型的统计数据。就上述四种计量尺度计量的结果来看,我们可以大体上将统计数据分为两种类型:定性的数据和定量的数据。定性数据(Qualitative data,亦称品质数据)是说明事物的品质特征表现的具体类别,不能用数值表示;因这类数据由名类尺度和顺序尺度计量形成,故又可细分为名类数据和顺序数据。定量数据(Quantitative data,亦称数量数据)是说明现象数量特征表现的,能够甚至必须用数值来表现;因这类数据由区间尺度和比尺度计量形成,故又可细分为区间数据和比数据。对不同类型的数据,可采用不同的统计方法来处理和分析,比如,对定性数据一般只采用分组法计算,分析各组的频数或频率,而对定量数据则可用更多的统计方法去处理,计算、分析更多的统计指标或统计量。
在统计中,一般把表示现象某种特征的概念称为变量(Variable)。这样,统计标志和指标都可以称为变量。变量的具体表现称为变量值(Variate-value);统计标志的标志表现和指标数值都是变量值。如果一个变量的变量值由品质数据来记录,该变量就是品质变量(Qualitative variable),如“性别”就是个品质变量,其变量值是“男”或“女”;“产品等级”也是个品质变量,它可以表现为“一等品”、“二等品”、“三等品”、“次品”等。如果一个变量的数值由数量数据来记录,该变量就是数量变量或称数字变量(Quantitative variable),如“产品产量”、“商品销售额”、“零件尺寸”、“年龄”、“时间”等都是数量变量,它们可以表现为不同的数值。数量变量还可以细分为离散变量和连续变量。离散变量(Discrete variable)的取值是有限的,所有取值都以整位数断开,且可一一列举,如“企业数”、“产品数量”等就是离散变量。而连续变量(Continuous variable)的取值是无穷的,连续不断的,不能一一列举,如“年龄”、“温度”、“零件尺寸”等都是连续变量。另外,应该注意,多数情况下我们所说的变量是指数量变量,统计标志中的数量标志和所有的统计指标就是这种变量,大多数统计方法所处理的也都是数量变量,因此有时把数量变量就简称为变量。本书以后各章多沿用这种做法。
二、统计数据的调查方式和搜集方法
在本源上,统计数据都来自直接的调查或试验,这种来源的数据也被称为第一手或直接的统计数据。有时,别人调查或试验的数据也是使用者搜集统计数据的一个来源,当然,这种数据属第二手或间接的统计数据。但任何一种统计数据的获取都要进行适当的组织和运用具体的搜集方法。这里,我们着重讨论取得社会经济统计数据的主要调查组织方式和具体搜集方法。
(一)统计调查的组织方式
实际中常用的统计调查组织方式主要有普查、抽样调查、统计报表、重点调查和典型调查等。
1、普查。普查(Census)是为某一特定目的而专门组织的一次性全面调查方式,如人口普查、工业普查、农业普查等。世界各国一般都定期进行各种普查。普查适用于特定目的、特定对象,旨在搜集有关国情国力的基本统计数据,为国家制定有关政策或措施提供依据。它主要用于搜集处于某一时点状态上的社会经济现象的数量。普查作为一种特殊的调查组织方式有以下几个特点:
(1)普查通常是一次性或周期性的。普查涉及面广,调查单位多,要耗费大量的人力、物力和财力,所以间隔较长时间,如10年才进行一次。我国的人口普查从1953年到1990年共进行过4次。今后,我国的普查将规范化、制度化,每逢末尾为“0”的年份进行人口普查,末尾为“3”的年份进行第三产业普查,末尾为“5”的年份进行工业普查,末尾为“7”的年份进行农业普查,末尾为“1”或“6”的年份进行统计基本单位普查。
(2)普查一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性。我国前四次人口普查的标准时间定为普查年份的7月1日0时,第五次人口普查为2000年11月1日0时。农业普查的标准时间定为普查年份的1月1日0时。标准时间一般定为调查对象比较集中、相对稳定的时期。
(3)普查的数据一般比较准确,规范化程度也高,因此可作为抽样调查和其他调查的依据。
(4)普查的使用范围较窄,只能调查一些最基本或特定的现象。
2、抽样调查。抽样调查(Sampling survey)是按照一定的概率从总体中抽取一部分单位构成样本,并根据样本信息推断总体数量特征的一种非全面调查。这是一种应用最为广泛的调查组织方式。抽样调查的内容将在后面设专章讨论。
3、统计报表。统计报表(Statistical report forms)是按照国家有关法规规定,自上而下统一布置,自下而上逐级填报的一种调查组织方式。这种调查组织方式在我国政府统计工作中,经过几十年的改进和完善,已形成了一套比较完备的统计报告制度,它要求以原始数据为基础,按照统一的表式、指标、报送时间和报送程序填报,已成为国家和地方政府部门获取统计数据的主要统计调查组织方式。
统计报表类型多样。统计报表按调查范围可分为全面报表和非全面报表;按报送时间可分为日报、月报、季报和年报等;按报送受体可分为国家、部门、地方统计报表。
4、重点调查。重点调查(Key-point investigation)是这样一种调查组织方式,它只从全部总体单位中选择少数重点单位进行调查,这些重点单位尽管在全部总体单位中出现的频数极少,但其某一数量标志却在所要研究的数量标志值总量中占有很大的比重。例如,要了解全国的钢铁生产总量,只要对产量很大的少数几个钢铁企业,如鞍钢、宝钢、首钢等进行调查,就可对全国的钢铁生产总量有个大致的认识。这几个产量很大的企业,构成了这次全国钢产量调查的重点单位,因为它们的钢铁产量,在全国的钢铁生产总量中占有很大比重。
5、典型调查。典型调查(Model survey)是从全部总体单位中选择一个或几个有代表性的单位进行深入细致调查的一种调查组织方式。典型调查的目的是通过典型单位来描述或揭示事物的本质或规律,因此所选择的典型单位应能反映所研究问题的本质属性或特征。例如,要研究工业企业的经济效益问题,可以在同行业中选择一个或几个经济效益突出的单位做深入细致的调查,从中找出经济效益好的原因和经验。典型调查主要用于定性研究,调查结果一般不能推断总体。
(二)数据搜集方法
不论采用哪种方式组织调查,都要运用具体的数据搜集方法去采集统计数据。归纳起来,数据搜集方法有询问调查和观察实验两大类。
1、询问调查。询问调查是调查者与被调查者直接或间接接触以获得数据的一种方法、具体包括访问调查、邮寄调查、电话调查、电脑辅助调查、座谈会、个别深度访问等。
(1)访问调查。访问调查又称派员调查,是调查者与被调查者通过面对面交谈从而得到所需资料的调查方法。这又可分为标准式访问和非标准式访问两种。标准式访问又称结构式访问,是按照调查人员事先设计好的,有固定格式的标准化问卷或表格,有顺序地依次提问,并由受访者作出回答。其优点是能够对调查过程加以控制,从而获得比较可靠的调查结果。非标准式访问又称非结构式访问,它事先不制作统一的问卷或表格,没有统一的提问顺序,调查人员只是给一个题目或提纲,由调查人员和受访者自由交谈,从中获得所需资料。询问调查在市场和社会调查中常被采用。
(2)邮寄调查。邮寄调查是通过邮寄、宣传媒体和专门场所等将调查表或问卷送至被调查者手中,由被调查者填写,然后将调查表寄回或投放到收集点的一种调查方法。这是一种标准化调查,其特点是,调查人员和受调查者没有直接的语言交流,信息的传递完全依赖于调查表。邮寄调查在统计部门进行的统计报表及市场调查机构进行的问卷调查中经常使用。
(3)电话调查。电话调查是调查人员利用电话同受访者进行语言交流,从而获得信息的一种调查方法。该方法具有时效快,费用低等特点。随着电话的普及,电话调查也越来越广泛。电话调查可以按照事先设计好的问卷进行,也可以针对某一专门问题进行电话采访。电话调查所提问题要明确,且数量不宜过多。
(4)电脑辅助调查。这种调查也叫做电脑辅助电话调查,就是在电话调查时,调查的问卷、答案都由计算机显示,整个调查过程,包括电话拨号、调查记录、数据处理等也都借助于计算机来完成的一种调查方法。目前,电脑辅助调查已在一些发达国家和地区广泛应用,并已开发出了各种电脑辅助电话调查系统。
(5)座谈会。座谈会也称为集体访谈法,就是将一组被调查者集中在调查现场,让他们对调查的主题发表意见,从而获取资料的方法。参加座谈会的受访者应是所调查问题的专家或有经验者,人数不宜太多,通常为6-10人,研究人员应对受访者进行严格的甄别、筛选。讨论方式主要看主持人的习惯和爱好。这种方法能获取其他方法无法取得的资料,因为在彼此交流的环境里,受访者相互影响、启发、补充,不断修正自己的观点,这就有利于研究者从中获得较为广泛深入的想法和意见。而且座谈会不会因为问卷过长而遭到拒访。
(6)个别深度访问。深度访问是一种一次只要一名受访者参加的特殊的定性研究。“深访”暗示着要不断深入到受访者的思想中,努力发掘其行为的真实动机。深访是一种无结构的个人访问,调查者运用大量的追问技巧,尽可能让受访者自由发挥,表达他的想法和感受。深度访问常用于动机研究,如消费者购买某种产品的动机等,以发掘受访者非表面化的深层意见。这一方法最适用于研究隐私的问题,如个人隐私问题,或敏感问题,如政治性问题。对于那些不同人之间观点差异极大的问题,用小组讨论可能会把问题弄糟,这时也可采用深度访问法。
座谈会和个别深访法属于定性方法,通常围绕一个特定的主题取得有关定性资料。此类方法和定量方法不同。定量方法是从总体中按随机方式抽取样本获得资料,其研究结果或结论可以进行推论。但定性研究着重于问题的性质和对未来趋势的把握,而不是对研究总体数量特征的推断。座谈会和个别深度访问主要用于市场调查和研究。
2、观察与实验。观察与实验是调查者通过直接的观察或实验获得数据的一种方法。
(1)观察法。这是指就调查对象的行动和意识,调查人员边观察边记录的收集信息的方法。这是一种可替代直接发问的方法。运用这种方法,训练有素的观察员或调查员到重要地点,利用感觉器官或设置一定的仪器,观测和记录人们的行为和举动。采用观察方法,由于调查人员不是强行介入,受访者无须任何反应,因而常常能在被观测者不察觉的情况下获得信息资料。
(2)实验法。这是一种特殊的观察调查方法。实验法是在所设定的特殊实验场所、特殊状态下,对调查对象进行实验以取得所需资料的一种调查方法。根据场所不同,实验法可分为在室内进行的室内实验法和在市场或外部进行的市场实验法。室内实验法可用于广告认知的实验等,例如,在同日的同种报纸上,版面大小相同,分别刊登A、B两种广告,然后将其散发给读者,以测定其反应结果。市场实验法可用于消费者需求调查等,例如,企业让消费者免费使用一种新产品,以得到消费者对新产品看法的资料。
当然,若能通过直接调查或实验获取第一手数据那最好不过了。但这往往不可能。有时,需要通过间接渠道获取别人调查或科学试验的第二手数据。第二手数据主要是公开出版或公开报道的数据。在我国,公开出版或报道的社会经济统计数据主要来自国家和地方的统计部门以及各种报刊媒介。例如,公开出版物有《中国统计年鉴》、《中国统计摘要》、《中国社会统计年鉴》、《中国工业经济统计年鉴》、《中国农村统计年鉴》、《中国人口统计年鉴》、《中国市场统计年鉴》,以及各省、市、地区的统计年鉴等。提供世界各国社会和经济数据的出版物也有许多,如《世界经济年鉴》、《国外经济统计资料》,世界银行各年度的《世界发展报告》等。联合国的有关部门及世界各国也定期出版各种统计数据,除了公开出版的,还有尚未公开的统计资料,以及在各种报刊、杂志、图书、广播、电视传媒中的数据资料也可利用。随着计算机网络技术的发展,在网络上获取资料也很重要。但在使用第二手数据时,应注意统计数据的含义,计算口径和计算方法的可比性,避免误用或滥用。同时,在引用第二手数据时,一定要注明来源,以尊重他人的劳动成果。
三、调查方案的设计
为了使调查工作顺畅进行,最终取得高质量的数据资料,事先应制定出一个纲领性文件,这个纲领性文件就是调查方案。不同调查的调查方案在内容和形式上会有差别,但调查目的、调查对象、调查项目和调查表等内容是必不可少的。
(一)确定调查目的
调查方案首先应明确本次调查的目的。调查目的是调查所要达到的目的,它回答的是为什么调查,要解决什么样的问题,调查具有什么样的社会经济意义等。只有在调查目的明确之后,才能确定向谁调查,调查什么及采用什么方法进行调查。调查目的的表述应简明扼要。我国1990年第四次人口普查的目的是这样表述的:“为准确地查清第三次全国人口普查以来我国人口在数量、地区分布、构成和素质方面的变化,为科学地制定国民经济和社会发展战略与规划,统一安排人民的物质文化生活,检查人口政策执行情况,提供可靠的资料”。
(二)确定调查对象
调查对象亦称调查单位。确定调查对象就是明确向谁搜集统计数据,换言之,调查对象是调查项目的承担者或载体,是提供统计数据的基本单位。我国第四次人口普查规定:“人口普查的对象是具有中华人民共和国国籍并在中华人民共和国境内常住的人(指自然人)。”简言之,人口普查的调查对象是每一个人。再如,若要取得某地区工业产品产量、产值的全面统计数据,就可以将该地区的所有独立核算的工业企业都确定为调查对象。
这里,须特别说明三点:第一,调查单位和调查对象是同义词,只是在不同的场合采用不同的叫法而已;一些教材和文献将两者区分开来,把调查对象看成是调查单位的集合体,这是不规范的。第二,关于对全面调查和非全面调查的划分,全面调查是指对构成统计总体的全部单位都搜集其数据资料,如普查,而非全面调查是指只对统计总体中的部分单位搜集其数据资料,如抽样调查;但不管是全面调查还是非全面调查,所有的总体单位都是调查对象或称调查单位。第三,调查对象和调查单位,跟总体单位也是同义词,只是在统计调查阶段对总体单位的一种特殊叫法;因此,一些教材和文献把调查对象(调查单位)和总体单位看成是完全不同的范畴,这也是不规范的。
(三)确定调查项目和设计调查表
确定调查项目,这是要回答调查什么的问题。具体说,调查项目就是所要调查的总体单位的数量标志和品质标志。在多数统计调查中,调查项目通常以表格,即调查表的形式来表现。这种用于登记定性数据和定量数据的表格,一般由表头、表体和表外附加三部分组成。表头是调查表的名称,用来说明调查的内容、被调查单位的名称、性质等。表体是调查表的主要部分,列示调查的具体项目。表外附加通常由填表人签名、填报日期、填表说明等内容组成。
调查项目和调查表是调查方案的核心部分,而在许多方案中,调查项目和调查表又往往表现为一张调查问卷。调查问卷是搜集数据资料的工具。问卷在结构上一般由开头部分、甄别部分、主体部分和背景部分组成。开头部分包括问候语、填表说明和问卷编号等内容。甄别也称为过滤,就是对被调查者进行筛选,去掉不需要的部分,确定合格的被调查者,从而满足调查研究的需要。主体部分最核心的是调查的项目,具体说,就是调查者根据调查的目的和要求所设计的一系列问题、备选答案、说明以及码表等。背景部分是有关被调查者的一些背景资料,通常放在问卷的最后,背景资料可使研究者对被调查者进行分类比较分析。
(四)方案设计中的其他内容
除上述几项主要内容外,调查方案还应明确调查所采用的方式和方法、调查时间以及调查的组织与实施的具体细则等。明确调查的方式就是明确此项调查是全面调查还是非全面调查;如果是非全面调查,还要再明确是抽样调查、重点调查还是典型调查;若是抽样调查,还应继续明确抽样框、具体的抽样方法、数据的推断方法等。明确调查的方法就是规定好是用访问调查、邮寄问卷调查、电话调查还是其他方法去获取具体的统计数据资料。调查时间包括调查数据的所属时间和调查的工作期限。数据所属时间对时期数来说是指该数据所涵盖的一段时间区间,对时点数来说是指该数据所存在的瞬间时点。调查的工作期限指该项调查工作从开始到结束的时间长度,包括搜集数据的时间、数据处理的时间、数据分析和完成调查报告的时间等。第四次全国人口普查数据所属的时间是“1990年7月1日0时”,普查的工作期限是“1990年7月1日至7月10日完成普查的登记工作”。调查的组织与实施工作,具体包括调查人员的选择、组织和培训,调查表格、问卷、调查员手册的印刷,调查工具的准备、调查经费的来源和开支预算等。
四、统计数据的质量
统计数据的质量直接影响到统计分析的结论。为确保统计数据的质量,在数据的搜集、整理、分析各阶段都应尽可能减少误差,在数据的搜集阶段这个问题尤为重要。
(一)统计数据的误差
统计数据的误差通常是指统计数据与客观现实之间的差距,主要有登记性误差和代表性误差两类。登记性误差是调查过程中由于调查者或被调查者的人为因素所造成的误差。调查者所造成的登记性误差主要是由调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总错误等引起的。被调查者造成的登记性误差主要是由故意虚报或瞒报引起的。理论上讲,登记性误差是可以消除的。代表性误差是指用样本推断总体时可能产生的误差,也被称为抽样误差。这种误差不象登记误差那样,可以通过加强工作责任心来消除,只要进行概率抽样,这种误差就可能产生,甚至不可避免。但这种误差可事先进行计算或控制。
(二)统计数据的质量要求
数据的质量包括多方面的含义,不仅仅指数据本身的准确性或误差的大小。一般而言,可将统计数据的质量评价标准概括为6个方面:(1)精度,即最低的抽样误差或随机误差;(2)准确性,即最小的非抽样误差或偏差;(3)关联性,即满足用户决策、管理和研究的需要;(4)及时性,即在最短的时间里取得并公布数据;(5)一致性,即保证时间序列的可比性;(6)最低成本,即在满足以上标准前提下,以最经济的方式取得数据。人们对统计数据质量的要求越来越高。当我们为某一需要搜集统计数据时,在调查方案的设计,数据的搜集,数据的处理与分析各个环节中,都应保证数据的质量,以便得出切合实际的客观结论。
相关文章:
更多关注:统计师考试报名时间 2012年统计师考试证书领取 报考条件 考试培训
(责任编辑:xll)
近期直播
免费章节课
课程推荐
统计师
[协议护航-退费班]
12大模块 准题库资料 协议退费校方服务
统计师
[协议护航-畅学班]
12大模块 准题库资料 协议续学校方支持
统计师
[丰羽计划-畅学班]
4大模块 题库练习 精品课程