第二节离散趋势指标

作者：徐荣祥出版社：中国科学技术出版社发行日期：2009年7月

离散（dispersion）趋势指标指的是计量资料所有观察值偏离中心位置的程度（measures of variation）。描述离散趋势的主要统计指标有全距（range，R）、方差（variance）、标准差（standard deviation）、变异系数（coefficient of variation）等。
一、全距
全距又称极差，以符号R表示。R等于一个变量的所有观察值中最大值（maximum，Max）与最小值（miximum，Max）之间的差值。计算公式为（368）：R=Max-Max。当计算计量单位相同的变量时，全距越大，观察值的离散程度越大。
如一组烧伤病人的最大烧伤面积为90%TBSA，最小面积为10%TBSA，按公式（368）计算，R=90-10=80%TBSA。
二、方差
方差是离均差平方和的平均值，方差的大小只与观察值离散程度有关，而与观察值个数的多少无关。样本方差以符号S2表示，是总体方差的估计值，按公式（369）计算：

式中∑（X-X）2为离均差平方和， n-1为自由度（n′）。因总体方差不易得到，实际工作中常用样本方差作为总体方差的估计。
方差多用于方差分析或两个样本标准差合并计算之用。如甲组25人，标准差为28，乙组46人，标准差为22，两组合并标准差公式为（369）：

三、标准差
根据上述见解，全距系指一组变量值中最大值与最小值的差；标准差则表示这一组变量值分布的离散程度。为进一步说明其离散程度，试看下面这两组数据：
A组：80、90、100、110、120（平均数=100）
B组：98、99、100、101、102（平均数=100）
这两组数值的均数都是100，但是变量值的波动范围却有很大差别，A组数据最大值与最小值之差（全距）为40(120～80)，B组数据最大值与最小值之差（全距）为4(102～98)。由此可见，A组数据的波动范围比B组大得多。故均数不能完全说明事物内部的实质，需要用标准差来综合分析。目前认为反映数据精确度较为完善的指标就是标准差。
又如：甲组5例病人的烧伤总面积分别为90%、80%、70%、21%、9%TBSA，平均为54%TBSA；乙组5例病人的烧伤总面积分别为100%、49%、49%、36%、36%TBSA，平均值也为54%TBSA，但甲组特重度病人有3例，乙组仅有1例。两组均值虽然相等，但并无同质性和可比性，同时也可看出标准差的重要性。因为标准差是一个个体数据偶然性波动大小的标准尺度，标准差大，表示个体数据波动性大，标准差小，表示个体数据波动性小。
四、标准差计算
1直接计算公式（3610）：

S为标准差，∑Χ2为变量值平方后的和，（∑x）2是变量值总和后的平方，n为变量个数。
示例365：测得9例创面出血病人的血小板数量分别为：30、50、40、40、50、40、30、50、149（×109/L），求它们的标准差。
【解题步骤】
先分别求出公式（3610）中的∑Χ2和（∑Χ）2/n，及n-1值，然后代入公式。
因为∑Χ2为变量值平方后的和，即：
∑Χ2=302+502+402+402+502+402+302+502+1492=36301
［（∑Χ）2］/n=（30+50+40+40+50+40+30+50+149）2/9=254934
（n-1）为（9-1）=8
代入公式（3610），得：

答：9例创面出血病人的血小板标准差为36755×109/L。
2大样本加权法公式
计算大样本资料，应绘制频数表资料，根据公式（3611）计算标准差：

式中∑fX为各组段X与本组段频数乘积之和，∑fΧ2为各组段fx与本组段X乘积之和。
示例366仍以例362为例，即某院调查了110例特重度烧伤病人的血液血红蛋白含量，其浓度范围在115～150 g/L之间，求其标准差。
【解题步骤】
根据表362中提供的数据，将(∑f)=110、(∑fX)=13194、(∑fΧ2)=1584990代入公式（3611），得：

结果：110例烧伤病人的血红蛋白标准差为472g/L。
五、变异系数
在统计学上将变量值间的差异称为变异，表明这种变异的指标有全距、标准差和变异系数。如上所述，标准差的作用是用来确定两组数据的波动程度，一般情况下，哪一个标准差大，哪一组的数据波动范围也大；哪一个标准差小，其波动范围也小。但是，当比较不同类型的数据时，如身长与体重，或两个平均数相差较大时，若直接用标准差判断它们的波动程度就不妥当了，因为标准差只能反映绝对波动大小，不能反映相对波动大小。这种表达相对数波动大小的指数称为变异系数，用cv或ν表示。该指标也可理解为用百分比表示的标准差，即标准差（s）与均数（X）之比。其公式为（3612）：

示例367某院调查了7岁男孩身高均数为12116cm，标准差为431cm，胸围均数5771cm，标准差为282cm。比较两者的变异程度。
【解题步骤】
根据公式（3612），分别求身长变异系数和胸围变异系数：

答：本例身长均数明显大于胸围均数，若与标准差直接比较，胸围的变异系数似乎小于身长，但经过变异系数计算，结论为胸围的变异程度并不比身长变异程度小。由此可见，身长的变异程度比胸围稳定。
六、标准误
因为均数的标准误与样本标准差相似，都是说明离散程度的指标，故在此作一介绍。变异系数均数标准误有两种，一种是总体标准误，一种是样本标准误。总体标准误（σx）和样本标准误（sx、SE、SEM）是表示均数误差程度的指标。在医学研究中，常在总体中抽出一部分作为样本，然后再根据样本的观察结果推论总体情况。但是，由于在同一总体中的个体之间必然存在着差异（如同是50%TBSA烧伤），样本均数与总体均数之间存在差异，各个样本均数之间必然产生差异，谓之标准误（sx），是由抽样引起的。标准误越小，说明样本均数与总体均数越接近，用样本均数推论总体均数的可能性越大；反之，标准误越大，说明用样本均数推论总体均数的可能性越小。故均数标准误是测定样本均数变异范围的尺度。在医学资料中，常用样本均数±标准误的形式（x±sx）表示资料的可靠程度。一般来说，在x±1×sx的范围内，总体均数出现的概率为683%；在x±2×sx的范围内，总体均数出现的概率为95%，或者说有95%以上的把握可认为总体均数在这个范围之内，也可认为重复同样实验100次，得出100个均数，会有95%以上的均数分布在x±2×sx的范围内。公式（3613）为：

sx为标准误，s为样本标准差，n为样本个数。
示例368某院抽查了100例病人的血液红细胞数量，其样本均值为50×109/L，样本标准差为246×109/L，求其标准误。
【解题步骤】
根据公式（3613），求得：

答：本例样本标准误为0246（×109/L），资料的可靠程度为50±0246（×109/L）。
七、平均数、标准差、标准误的应用
1表示正常范围如体温、脉搏，血压，红细胞，白细胞等正常值等计算均需要标准差的参与。正常值范围一般是以平均数±2个标准差作为划定界限，现以红细胞为例说明这个问题。如我们所求得的健康男子红细胞平均值为50×109/L，标准差为25×109/L，则正常男子红细胞的正常值可定为50±2×25，即45×109/L～55×109/L范围内。但应注意，在应用此方法时，变量的分布必须是正态分布，如属于非正态分布者，应采取其他方法计算。
2估计受试对象所需样本数
（1）利用标准误公式推算样本数：
示例369某医院测定了80名严重烧伤患者早期血液肌酐（Cr）含量，测定结果：均数（x）=1548μmmol/L，标准差(s)=158μmmol/L ，标准误=1778μmmol/L，即目前95%的置信限为1548±354μmmol/L ，欲求95%的置信限在158±20μmmol/L的范围内，需要观察多少例才能出现这种结果?
【解题步骤】
①根据标准误计算公式(3613)推算样本数（n），公式为(3614)：

②因为95%的置信限为x±2×sx，今求2×sx=20，即sx=10。把有关数据代入公式（3614），得：

③结论：若把观察人数增加到250人，可能使置信限范围达到1548±20μmol/L 。
（2）利用两合并标准差推算样本数：
示例3510某医生用某药治疗粒细胞减少症，为观察某药物用口服方法及肌肉注射方法对最高疗效出现时间(天)的影响。根据预备试验结果，口服法最高疗效出现的平均时间为222天，肌肉注射法为175天，合并标准差(s)为1391天。问各组需观察多少例才能使两组均数的差异有显著意义?
【解题步骤】
①本例是两个样本平均数作比较的资料，当两组样本相等时，其样本大小的估计公式为（3615）：

n=每组例数，t005=表中查出的标准值，s=合并标准差，x1-x2=两组均数差。
②当n≥30时，查表得出t005=20，因x1-x2=475，s=1391，代入公式（3615）：

③结论：每组需要观察69例才能使两组均数差异有显著意义。

第二节 离散趋势指标

第二节离散趋势指标