二、数值型数据的整理与显示
上面介绍的品质数据的整理与图示方法,也都适用于对数值型数据的整理与显示。但数值型数据还有一些特定的整理和图示方法,并不适用于品质数据。
(一)数据的分组
数据分组就是根据统计研究的需要,将数据按照某种标准划分成不同的组别。分组后再计算出各组中出现的次数或频数,形成一张频数分布表。分组的方法有单变量值分组和组距分组两种。单变量值分组是把每一个变量值作为一组,这种分组方法通常只适合于离散变量且变量值较少的情况。在连续变量或变量值较多的情况下,通常采用组距分组。
组距分组是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。下面结合具体的例子说明分组的过程和频数分布表的编制过程。
例如,某高中一年级一班共有55名学生,高一语文考试中成绩分别为:
59 73 87 65 89 85 77 94 69 9 7
56 80 68 95 96 50 63 88 91 90
96 92 93 79 74 65 74 89 83 51
74 79 94 67 92 92 93 70 87 86
54 87 86 54 62 76 86 73 86 70
100 110 108 102 112
采用组距分组需要经过以下几个步骤:
第一步,确定分组组数。确定分组组数的要求是:第一,划分的组数,既不应太多也不应太少。组数过多,达不到通过分组压缩资料的目的;组数太少,将造成原始资料的信息丢失过多。第二,组数的确定:要尽量保证组间资料的差异性与组内资料的同质性。第三,采用的分组办法,要能够充分显示客观现象本身存在的状态。
关于统计分组组数问题,不少统计学家曾做过研究,并给出了经验公式。比较有代表性的是斯特基(H.A.Sturges)方法。计算公式为:

K为分组组数,Ⅳ为数据个数。
在本例中,
,即应分为7组。
由于实际情况可能比较复杂,可根据数据的多少和特点及分析的要求,参考以上经验公式,灵活确定组数。
第二步,对原始资料进行排序。结果如下:
50 51 54 54 56 59 62 63 65 65
67 68 69 70 70 73 73 74 74 74
76 77 79 79 80 83 85 86 86 86
86 87 87 87 88 89 89 90 91 92
92 92 93 93 94 94 95 96 96 97
100 102 108 110 112
第三步,求极差。将最大的观察值与最小的观察值相减便得到极差(下一章还将专门介绍极差)。此例中,极差值为112-50=62。
第四步,确定各组组距。在实行等距分组的情况下,组距的确定办法为:
组距=极差/组数
根据上式计算出来的组距,可能带有小数,为了编表和计算方便,也是审美习惯使然,最好把它取成接近于能被5除尽的一个数。例如,根据公式计算出来的组距如果是5.4、3.8、8.7、0.4等,可以把组距定为5.5、5、10、0.5。本例中,组距=62/7=≈8.9,组距可取10。
用极差与组数相除确定组距的意义很明显,它表明分组组数给定的情况下,应取多大的组距才能覆盖全部数据。组距与组数成反比关系,组数越多,组距越小;组数越少,组距越大。
组距是每组观察值的最大差,即每组的上限值与下限值之间的差。用公式表示就是:
组距=某组的上限值-该组的下限值
第五步,确定组限。组限是组与组之间的界限,或者说是每组观察值变化的范围。组限有上限与下限之分,在组距分组中,一个组的最小值称为下限,最大值称为上限;上限与下限的差值称为组距;上限值与下限值的平均数称为组中值。组中值的代表性如何,取决于组中观察值的变化是否呈对称分布状态。组中值的一般计算方法为:
组中信= (上限值-下限值)/2
确定组限时应注意:第一,第一组的下限值应比最小的观察值小一点,最后一组的上限值应比最大的观察值大一点。第二,特别需要或不得已的情况除外,最好不要使用开口组。第三,组限应取得美观些,按数字偏好,组限值应能被5除尽,且一般要用整数表示。本例中,我们把第一组的下限值定为50,那么各组的组限依次为:
50~60,60~70,70~80,80~90,90~100,100~110,110~120。
第六步,确定各组观察值出现的频数。凡观察值落在某一区间的,就计发生一次,最后统计各组观察值发生的总次数。采用组距分组时,需要遵循“不重不漏’’的原则。‘‘不重,,是指一项观察值只能分在其中的某一组,不能在其他组重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的观察值不算在本组内,而计算在下一组内。例如在本例中,70这一数值不计算在“60~70”这一组中,而计算在“70—80”这一组中。
第七步,制作频数分布表,并填上相关的内容,以及其他需要说明的事项。本例中的频数分布如表23—6所示
表23—6 频数分布表

(二)数值型数据的圈示
通过数据分组后形成的频数分布表,我们可以初步看出数据分布的一些特征和规律。如果我们进一步用图形来表示这一分布的结果,会更形象直观。显示分组数据频数分布特征的图形有直方图、折线图等,上面介绍的条形图、圆形图等也都适用于显示数值型数据。
1.直方图
直方图是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标中,我们用横轴表示数据分组,纵轴表示频数或频率,这样,各组与相应的频数就形成了一个矩形,即直方图。
例如根据表23—6中的组距分组数据绘制的直方图如图23—4所示

图23—4某班高一语文成绩分布的直方图
对于等距分组的数据,我们可以用矩形的高度直接表示频数的分布。如果是不等距分组数据,用矩形的高度来表示各组频数的分布就不再适用。这时,如果我们不是用矩形的皇竺!
是用矩形的面积来表示各组的频数分布,或根据频数密度来绘制直方图,就可以准确地表示各组数据分布的特征。实际上,无论是等距分组的数据还是不等距分组的数据,我们用矩形的面积或频数密度来表示各组的频数分布更为合适,因为这样可使直方图下的总面积等于1。比如在等距分组中,矩形的高度与各组的频数成比例,如果取矩形的宽度(各组组距)为一个单位,高度表示比例(即频率),则直方图下的总面积等于1。在直方图中,我们实际上用矩形的面积表示各组的频数分布。
直方图与条形图不同,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,因此其高度与宽度均有意义。此外,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
2.折线图
折线图也称频数多边形图,它是在直方图的基础上,把直方图顶部的中点(即组中值)用直线连接起来,再把原来的直方图抹掉就是折线图。需要注意,折线图的两个终点要与横轴相交,具体的做法是将第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。这样才会使折线图下所围成的面积与直方图的面积相等,从而使二者所表示的频数分布是一致的。例如,在图23-4的基础上绘制的折线图如图23-5所示。

图23—5某班高一语文成绩分布的折线图
相关文章:
(责任编辑:中大编辑)