《商务经济与统计技术》描述数据部分笔记

描述数据用于描述已经发生的事情,通常从数据的频率分布、集中趋势和离散性来描述。以下会总结相关的公式以及作用。
1.频数分布与图形表示 1.1频数分布
频数分布:把一组数据分列到互补包含的组里,以显示各组中观察值的个数。构造频数分布的步骤和方法如下:


《商务经济与统计技术》描述数据部分笔记
文章图片
构造频数分布的步骤和方法( 组中值:又称组记,相邻两个组下限的中值;组距:相邻两个组中值的差 ) 1.2茎叶图
茎叶图可以解决频数分布的弊端,解决频数分布无法知道数据的真实值、不知频数如何分布、只知道数据的大概分布范围的问题。
茎叶图:表现一组数据的统计方法。每一个数值被分成两部分,领头的数字作为茎,尾随的数字作为叶。茎沿竖直轴线排列,叶沿水平轴线排列。


《商务经济与统计技术》描述数据部分笔记
文章图片
茎叶图案例

1.3其他图形
·直方图
【《商务经济与统计技术》描述数据部分笔记】·频数折线图(连接组中值与组频交点的线段,比直方图的优势是:可以多组频数折现进行对比)
·累积频数分布图
2.集中趋势的度量
用于描述一组数据集中程度,它通常是一个单一数值,位于所有数据的中心。常用的工具和公式如下:


《商务经济与统计技术》描述数据部分笔记
文章图片
集中趋势度量工具

《商务经济与统计技术》描述数据部分笔记
文章图片
频数分组中集中趋势的度量工具 3.离散性
3.1常用工具和方法
当均值等集中趋势度量无法描述离散大的数据时,而离散程度的度量可以被用于评价两个或多个平均数的可靠性,此时需要对数据的离散程度进行描述,常用工具和方法如下:


《商务经济与统计技术》描述数据部分笔记
文章图片
图1

《商务经济与统计技术》描述数据部分笔记
文章图片
图2 3.2标准差的解释和使用
a解释:标准差常用来对两组或多组观测值比较时的一种度量尺度。标准差越小表明数据的离散程度越小,数据分布越紧密。
b切比雷夫定理
对于任意一组观测值(样本或总体),分布在均值加减k倍标准差范围内的值比例至少为1-1/k2,其中k是任意一个大于1的值。
c经验法则
对于对称的钟形频数分布,大约68%的观察值将分布在均值加减1倍标准差之间;大约95%的观察值将分布在均值加减2倍标准差之间;几乎全部(99.7%)的观察值分布在均值加减3倍标准差之间。
d相对离散
当对比数据具有不同单位(如美元和矿工天数);数据具有相同单位,但均值相差甚远(如高层管理人员的收入与非技术性员工的收入),以上两种情况下,多使用cv变异系数衡量离散性。


《商务经济与统计技术》描述数据部分笔记
文章图片
CV变异系数 CV变异系数标准差与算术均值的比率,表示一个百分数。值越大表示离散程度越大。
e偏度
一组数据的另一个特征就是形状,通常观察到的形状有4类:对称的,正偏的(右偏),负偏(左偏)的以及双峰的,我们用皮尔逊偏度系数来描述偏度:


《商务经济与统计技术》描述数据部分笔记
文章图片
皮尔逊偏度系数 sk=0,分布对称,没有显现出任何的偏斜性。sk为负为负偏,为正为正偏。
计算机输出的偏度系数如下:
《商务经济与统计技术》描述数据部分笔记
文章图片
计算机输出的偏度系数

其中右侧标准化,表示标准差除以各个观察值与均值之间的离差。公式表达的意思为每一单位标准差下的各观察值与均值的离差大小,如果这一离差是正的,该特定值大于均值(正偏);如果这一值为负,则该特定值小于均值(负偏);为0,该特定值等于均值(对称)。

    推荐阅读