《商务经济与统计技术》描述数据部分笔记
描述数据用于描述已经发生的事情,通常从数据的频率分布、集中趋势和离散性来描述。以下会总结相关的公式以及作用。
1.频数分布与图形表示
1.1频数分布
频数分布:把一组数据分列到互补包含的组里,以显示各组中观察值的个数。构造频数分布的步骤和方法如下:
文章图片
构造频数分布的步骤和方法( 组中值:又称组记,相邻两个组下限的中值;组距:相邻两个组中值的差 ) 1.2茎叶图
茎叶图可以解决频数分布的弊端,解决频数分布无法知道数据的真实值、不知频数如何分布、只知道数据的大概分布范围的问题。
茎叶图:表现一组数据的统计方法。每一个数值被分成两部分,领头的数字作为茎,尾随的数字作为叶。茎沿竖直轴线排列,叶沿水平轴线排列。
文章图片
茎叶图案例
1.3其他图形
·直方图
【《商务经济与统计技术》描述数据部分笔记】·频数折线图(连接组中值与组频交点的线段,比直方图的优势是:可以多组频数折现进行对比)
·累积频数分布图
2.集中趋势的度量
用于描述一组数据集中程度,它通常是一个单一数值,位于所有数据的中心。常用的工具和公式如下:
文章图片
集中趋势度量工具
文章图片
频数分组中集中趋势的度量工具 3.离散性
3.1常用工具和方法
当均值等集中趋势度量无法描述离散大的数据时,而离散程度的度量可以被用于评价两个或多个平均数的可靠性,此时需要对数据的离散程度进行描述,常用工具和方法如下:
文章图片
图1
文章图片
图2 3.2标准差的解释和使用
a解释:标准差常用来对两组或多组观测值比较时的一种度量尺度。标准差越小表明数据的离散程度越小,数据分布越紧密。
b切比雷夫定理
对于任意一组观测值(样本或总体),分布在均值加减k倍标准差范围内的值比例至少为1-1/k2,其中k是任意一个大于1的值。
c经验法则
对于对称的钟形频数分布,大约68%的观察值将分布在均值加减1倍标准差之间;大约95%的观察值将分布在均值加减2倍标准差之间;几乎全部(99.7%)的观察值分布在均值加减3倍标准差之间。
d相对离散
当对比数据具有不同单位(如美元和矿工天数);数据具有相同单位,但均值相差甚远(如高层管理人员的收入与非技术性员工的收入),以上两种情况下,多使用cv变异系数衡量离散性。
文章图片
CV变异系数 CV变异系数标准差与算术均值的比率,表示一个百分数。值越大表示离散程度越大。
e偏度
一组数据的另一个特征就是形状,通常观察到的形状有4类:对称的,正偏的(右偏),负偏(左偏)的以及双峰的,我们用皮尔逊偏度系数来描述偏度:
文章图片
皮尔逊偏度系数 sk=0,分布对称,没有显现出任何的偏斜性。sk为负为负偏,为正为正偏。
计算机输出的偏度系数如下:
文章图片
计算机输出的偏度系数
其中右侧标准化,表示标准差除以各个观察值与均值之间的离差。公式表达的意思为每一单位标准差下的各观察值与均值的离差大小,如果这一离差是正的,该特定值大于均值(正偏);如果这一值为负,则该特定值小于均值(负偏);为0,该特定值等于均值(对称)。
推荐阅读
- 慢慢的美丽
- 《真与假的困惑》???|《真与假的困惑》??? ——致良知是一种伟大的力量
- 《跨界歌手》:亲情永远比爱情更有泪点
- 诗歌:|诗歌: 《让我们举起世界杯,干了!》
- 期刊|期刊 | 国内核心期刊之(北大核心)
- 《魔法科高中的劣等生》第26卷(Invasion篇)发售
- 人间词话的智慧
- 《一代诗人》37期,生活,江南j,拨动心潭的一泓秋水
- 广角叙述|广角叙述 展众生群像——试析鲁迅《示众》的展示艺术
- 书评——《小行星》