统计学学习分享(二)
无名小狸 人气:0思考题:
1、一组数据的分布特征可以从哪几个方面进行测度?
可以从三方面:
1、分布的集中趋势,反应各数据向其中心值靠拢或聚集的程度;
2、分布的离散程度,反应各数据远离其中心值的趋势;
3、分布的形状,反应数据分布的偏态和峰态
2、简述众数、中位数和平均数的特点和应用场合
众数:
1、特点:不受极端值影响,缺点是不具备唯一性。一组数据可以有多个众数也可以没有众数
2、应用场合:只有数据量较多的时候才有意义,数据量较少的时候不宜使用众数,众数主要做来分类数据的集中趋势测度值
中位数:
1、特点:中位数是一组数据中间位置上的代表值,不受数据极端值影响
2、应用场合:当一组数据的分布偏斜程度较大时,可以选择用中位数,中位数主要用于顺序数据的集中趋势测度值。
平均数:
1、特点:平均数是对数值型数据计算的,利用了全部的数据信息,是实际应用中最广泛你的集中趋势测度值;缺点是易受数据极端值影响,对偏态分布的数据,平均数的代表性较差
2、应用场景:当数据呈对称分布或接近对称分布时,应选用平均数作为集中趋势的代表值,当数据为偏态分布时,特别是偏斜程度较大的时候,可以考虑中位数或者众数,他们的代表性比平均数更高
3、简述异众比率、四分位差、方差或标准差的应用场合
1、异众比率主要用于衡量众数对一组数据的代表成都。异众比率越大,说明非众数频率比重越大,众数代表性越差;反之代表性越高;异众比率主要适合测度分类数据的离散程度,顺序数据和数值型数据可以适用
2、四分位差主要用于测度顺序数据的离散程度,对于数值型数据也可以计算四分位差,但不适合分类数据
3、方差或标准差能较好地反映出数据的离散程度,是实际应用中最广泛的离散程度测度值。方差开方后即得到标准差,与方差不同的是标准差具有量纲,与变量值计量单位相同,其实际意义比方差清楚。因此对实际问题进行分析时更多的使用标准差
4、标准分数用途有那些?
变量值与其平均数的离差除以标准差后的值为标准分数,也称标准化值或z分数】
标准分数给出了一组数据中各数值的相对位置,在对多个具有不同量纲的变量进行处理时,常需要对各变量进行标准化处理。
标准分数具有0、标准差为1的特性,实际上z分数只是将原始数据进行线性变换,并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为平均数为0,标准差为1.
5、为什么要计算离散系数
方差和标准差是反应数据分散程度的绝对值,但是:
1、其数值的大小受原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的离散程度的测度值就大,绝对水平小的离散程度测度值就小
2、他们与原变量值的计量单位相同,采用不同单位的计量的变量值,其离散程度的测度值就会不同。因此对于平均水平不同或计量单位不同的不同组别的变量值,用标准差无法直接比较其离散程度。而计算离散系数可以消除变量值水平高低和计量单位不同对离散程度测度值的影响。
6、测度数据分布形状的统计量有那些?
有以下两种:
1、偏态:若一组数据的分布时对称的,则偏态系数是0;若偏态系数明显不等于0,表明分布式非对称的。若偏态系数大于1或者小于-1,就是高度偏态分布;若偏态系数在0.5~1或-1~-0.5之间,则是中等偏态分布。偏态系数越接近0,偏斜程度越低。
2、峰态:通常是与标准正态分布相比较而言,若一组数据服从标准正态分布,则峰态系数等于0;若峰态系数的值明显大于0,则表明分布比正态分布更尖,通常称为尖峰分布;若峰态系数的值明显小于0,则表明分布比正态分布更平,通常称为平峰分布。’
加载全部内容