白话统计学03—计数资料的统计描述(学习分享)

引言:

在上一小节中,我们详细的谈到了计量资料的统计描述。总的来说,根据计量资料的分布情况,我们可以将其分为两类:

正态分布资料:均值±标准差;

偏态分布资料:中位数,四分位数间距

在这一小节中,我们继续学习计数资料和等级资料的描述:比、比例与率。在这里,我们把等级资料看成是特殊的计数资料,故统一进行计数资料的统计描述。

一、计数资料的特性:

计数资料常见的数据形式是绝对数,如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性,如甲、乙两个医院某病出院人数不同时,比较两医院该病的死亡人数没有意义,因此需要在绝对数的基础上计算相对数。

计数资料常用的相对数指标有比、比例和率三种。两个有关指标之比称为比(ratio),或称相对比;当比的分子是分母的一部分时,称为比例(proportion),或称结构相对数;当比例与时间有关系时称为率(rate),或称强度相对数。在应用中有时习惯将某些比例指标称为率,如患病率、治愈率等,所以我们一定得区分数据的具体类型。

二、常用的相对数:

1.强度相对数    说明某现象发生的频率或强度,是指单位时间内某现象发生的频率,简称为率。常以百分率(%)、千分率(1/千)、万分率(1/万)、十万分率(1/10万)等表示,计算公式为:

式中比例基数,可以取100%、1000/1000、10000/10000、10万/10万等。比例基数的选择主要根据习惯用法和使计算的结果能保留1~2位整数,以便阅读。例如,期间患病率通常用百分率、婴儿死亡率用千分率、肿瘤死亡率以十万分率表示。

2.结构相对数     表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布,又称为构成比。通常以100%为比例基数。其计算公式为:

具体而言:设某事物个体数的合计由A1, A2, …,Ak个部分组成,构成比的计算为:

k个构成比的合计应为100%。

图3-1:民主党院、共和党员和无党派人员的分布饼图

图3-2:民主党院、共和党员和无党派人员的分布堆积条图

如图3-1和3-2,在第一小节中我们谈及的500名选民的政治背景,样本中45%的成员是民主党,40%的成员是共和党,15%的成员属于无党派。故这里的45%、40%和15%分别指的是其对应类型占总数的构成比,3个类型构成比之和为100%。

绘制成饼图(图3-1)或者堆积条图(图3-2)可以更加直观的看到各组分与总体的关系、以及各组分之间的构成比大小关系。同时我们也可以知道堆积条图的功能与饼图的功能一致,用于显示部分与总体的构成比关系。

从表3-1可以看出该医院1997和2018两年5种疾病死亡人数构成比的排序不同。1997年循环系统疾病占5种疾病死亡人数的比重最大,其次为恶性肿瘤,消化系统疾病和传染病死亡人数所占比重相同;而2018年5种疾病死亡人数中恶性肿瘤所占比重最大,其次为循环系统疾病,传染病死亡人数占的比重最小。

这里可看到构成比两个特点:

(1)说明同事物的k个构成比的总和应等于100%,即各个分子的总和等于分母。

(2)各构成部分之间是相互影响的,某一部分比重的变化受到两方面的影响。其一是这个部分自身的数值的变化,其二是受其他部分数值变化的影响。

3.相对比    相对比简称比(ratio),是两个有关指标之比,说明两指标间的比例关系。两个指标可以是性质相同,如不同时期发病数之比;也可以性质不同,如医院的医护人员与患者人数之比。通常以倍数或百分数(%)表示,计算公式为:

式中两指标可以是绝对数、相对数或平均数。

三、应用相对数的注意事项

1.结构相对数不能代替强度相对数。

构成比是用以说明事物内部某种构成所占比重或分布,各组分构成比之和为1,但并不说明某现象发生的频率或强度,在实际工作中经常会出现将构成比指标按照率的概念去解释的错误。例如表3-2研究已婚育龄妇女在不同情况下放置避孕环与失败率的关系。

表2中,首先我们明确一下,各组分构成比之和为1,而各组分失败率之和与1没有任何关系。第(3)栏为放环失败的绝对数,第(4)栏为各种情况下放环失败的百分构成,如果据此认为人工流产组放环失败率最高,则犯了以构成比代替率的错误。第(4)栏的构成比仅说明各种情况放环失败人数占总放环失败人数的比重,人工流产组百分比大,说明在放环失败的人中,属于人工流产组的人多。但并不能说明在该种情况下放环失败发生频率亦高,因为不能排除由于该组参加放环者多相应造成放环失败的人数也多的可能性,只有通过将第(3)栏各种情况放环失败人数除以第(2)栏各种情况放环人数,算出各组的失败率第(5)栏,才能反映各种情况放环失败水平。从第(5)栏数字可见事实上,人工流产组放环失败率最低,其他两组均高于此组。

注意我们平时用门诊或住院患者的资料分析疾病与年龄、性别、职业等因素的关系时,所计算的相对数一般都是构成比,不能当作率来分析。如表3-3,不同简单的把就诊时各年龄组患者所占的构成比当成年龄别患病率,得出40~49岁组患病率高,而老年组和少年组低;而各年龄阶段患病率正确的计算方法是通过人群的抽样调查,了解各年龄组的调查人数及所有现患病例数,才能分别计算出年龄别患病率。

2.计算相对数成有足够数量,数量小则直接叙述绝对数。

如果例数较小会使相对数波动较大。如某种新的治疗方法,治疗了2例患者,2例患者全部治愈,则计算治愈率为100%;如1例痊愈,则计算治愈率为50%。由100%至50%波动较大,但实际上只有1例的变化。

在临床试验或流行病调查中,当例数很少时,各种偶然因素都可能导致相对数的较大变化,因此最好用绝对数直接表示。但动物实验时,可以通过周密设计,严格控制实验条件,例如毒理实验,每组用10只纯种小鼠也可以计算相对数。

3.正确计算合计率。

4.注意资料的可比性。

在比较相对数时,除了要对比的因素(如不同的药物),其余的影响因素应尽可能相同或相近。在临床研究和动物实验时,应遵循随机抽样原则进行分组。下列因素可能影响对比组之间的可比性:

(1)观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等。

(2)观察对象内部结构是否相同,若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率(合计率)进行标准化后再作比较。

 

 

5.对比不同时期资料应注意客观条件是否相同。

例如:疾病报告制度完善和资料完整的地区或年份,发病率可以“升高”;居民因医疗普及,就诊机会增加,或诊断技术提高,也会引起发病率“升高”。因此在分析讨论时,应根据各方面情形全面考虑,慎重对待。

6.样本率(或构成比)的抽样误差。

不能仅凭数字表面相差大小下结论,而应进行样本率(或构成比)差别的假设检验

四、第2小节问题回顾:

在上一小节中,我们留下一个小问题,在正态分布或者偏态分布资料中,均数与中位数有什么区别和联系?

 

绘制一张图,答案就揭晓啦。简单的总结一下,对于正态对称分布的资料,均值=中位数=众数,但是实际上并不会有绝对正态分布的数据,故均数≈中位数≈众数;对于左偏分布的资料(大部分数据位于大值端),因平均数与所有数据的值有关,而中位数与所有数据的位置有关,故小部分的小值会拉低该资料的平均水平,故均值 < 中位数;对于右偏分布的资料(大部分数据位于小值端),小部分的大值会拉高该资料的平均水平,故均值 > 中位数。如果还有想不明白的童鞋,可以采用极限法的思维想想,如果我有一组数据,“1、2、3、4、4、4、3、2、 10000000(小值多,大值仅有1个)”,那么它就是属于典型的右偏分布,中位数就是4,而均值≈10000000/9 >>4,故可得出均值 > 中位数的结论;同样的道理,在左偏的数据中,仍能得到类似的结论。

小结:

在本小节中,我们引用一些实例来演示了在计数资料和等级资料中比、率所代表的意义,以及它们的本质区别,所以我们一定要避免以比代率的错误做法。正确掌握它们的用法,对我们接下来的统计学习大有裨益。在接下里的章节中,我们继续回到计量资料中,继续探讨熟悉又陌生的正态分布,拜拜!加油,伙计们。

参考书目

1.人民卫生出版社《医学统计学》第4版  孙振球 徐勇勇 著
2.中国人民大学出版社《白话统计学》第3版   蒂莫西.C.厄丹(Timothy C.Urdan)著,彭志文译
统计与绘图

白话统计学04—正态分布(学习分享)

2019-11-30 18:04:43

统计与绘图

白话统计学02—计量资料的统计描述(学习分享)

2019-11-30 18:05:52

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索