统计分析知识之--描述性统计 python数据分析

数据统计之描述性统计：变量类型包括分类变量和连续变量。如果细分分类变量又可以分为名义变量和等级变量，名义变量没有高低贵贱之分，如男女性别，等级变量存在等级之间的划分，如成绩的优良、中等、及格等：
度量标准分类变量：
分类变量使用频次和百分比（行汇总、列汇总呢、总计百分比）来进行度量，至于频次就可以使用列联表来进行展示，百分比可以用柱形图等。
连续变量：
连续变量的度量就比较复杂了，主要包含三个方面：集中趋势、离散程度、偏态和峰度，具体可见下图所示，图片来源于dmer老师，当然了有些时候为了方便看变量的分布会把连续变量分组，变成离散变量，然后看各个区间的数据分布。

文章图片

文章图片

----------------------集中趋势-----------------------
均值：
就是平均数，在这里不多讲，需要注意的一点是我们在求平均值的时候一般是剔除掉缺失值的。均值比较容易被大众理解，但是很容易被极值带偏，想起一个笑话：张村有个张千万，隔壁九个穷光蛋，平均起来算一算，人人都是张百万，所以说我们一般在变量基本符合正态分布的时候，才使用均值来对变量进行描述。
中位数：
就是对变量按照从小到大的排序，如果样本数量为奇数个就是最中间的那个数，如果样本数量是偶数个，就是最中间2个数的均值。中位数比较稳定，不容易受到极端值的影响，在样本左右偏的时候可以用中位数来进行度量。
众数：
就是样本中出现次数最多的那个数，这个一般在样本质量较好的情况下使用，比如有些时候你拿到数据，没太注意，人家用了9999来代替缺失值和异常值，这个时候一统计，可能就会出现一些问题，这个时候需要用到异众比率来衡量众数的代表性。
异众比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性就越差；异众比率越小，说明非众数组的频数占总频数的比重越小，众数的代表性越好。
均值、中位数和众数之间的关系如下图所示，一般变量是对称分布的时候使用均值来度量，左偏和右偏使用中位数来进行度量。如果牵涉到建模，发现变量的概率密度函数左右偏的时候，一般取log将其转化成正态分布。

文章图片

--------------------离散程度-----------------------
衡量一个变量的离散程度，可以用极差、方差、标准差、平均绝对偏差、四分位差、离散系数等指标来进行度量。
极差
极差 = 样本最大值 - 样本的最小值
方差
方差也没啥可讲的，只是分母下面是n-1，需要注意一下，因为牵涉到一个无偏估计的问题，如果样本量很少，特别是那种生物医学实验，一般对照样本量很少（50个以内），这个1就很重要了，对于现在上千上万的数据量而言，这个1其实基本上就没什么影响了，感兴趣的可以参考下面的博文，关于为什么分母是N-1的问题：
https://blog.csdn.net/aaronmorgan/article/details/87521392

文章图片

标准差
没什么可说的哈，就是方差开根号。
平均绝对偏差

文章图片

四分位差
四分位差 = 上四分位数 - 下四分位数，描述的是50%样本的离散程度，上四分位数的位置是3(n+1)/4，下四分位数的位置是(n+1)/4。那么四分位数怎么求呢？以下四分位数为例，假设有10个样本，先对它进行排序，然后下四分位数的位置(10+1)/4=2.75，那么下四分位数=第2个位置的值 + (第三个位置的值 - 第二个位置的值) * 0.75。
一般用箱线图来表达。
离散系数
当进行两个或多个资料离散程度的比较时，如果度量单位与均值相同，可以直接利用标准差来比较。如果单位和（或）平均数不同时，比较其离散程度就不能采用标准差，而需采用标准差与平均数的比值（相对值）来比较：

文章图片

--------------------分布形状-----------------------
【统计分析知识之--描述性统计】
文章图片

偏态系数
数据偏斜程度的测定。

文章图片

SK表示偏斜系数：偏态系数小于0，因为平均数在众数之左，是一种左偏的分布，又称为负偏。偏态系数大于0，因为均值在众数之右，是一种右偏的分布，又称为正偏；当SK=0时，数据完全对称分布。在建模的时候一般认为|SK|<1，便认为他是服从正态分布的；一般说来，右边的变量取个log之后就能转化成正态分布，方便建模。
峰态系数
数据扁平程度的测定。

文章图片

当K=3时，扁平程度适中；当K>3时为尖峰分布；当K<3时为扁平分布。

统计分析知识之--描述性统计

推荐阅读

旗舰手机|多款华为旗舰手机亮相虎年春晚，华为P50 Pocket作为吸睛

哈雷摩托车属于什么类型的车

{调取该文章的TAG关键词}|Alibaba Unveils World's Leading Arm Server Chip for Cloud Business

友盟的分析一般多长时间刷新

京东打白条怎么用？京东打白条如何用？

海钓鱼竿怎么安装

多肉黄丽怎么养成老桩多肉黄丽怎么养

商丘中小学寒假放假时间已定吗商丘中小学寒假放假时间已定

中高风险地区是不是都会带星

奔驰gle320室内保险丝在哪里奔驰gle350保险丝盒说明

刺客信条英灵殿卡LOGO界面怎么办无法进入游戏解决方法

ios13最好看壁纸，iphone13最新壁纸ios

需求分析文档使用范围

努力让自己变得有价值商标怎么变得有价值，女人怎样变得有价值

安卓手机信息锁屏显示图片,安卓手机锁屏如何处理?一文看懂

泰国mfd日期怎么看

Win10安装海马玩模拟器发生蓝屏怎么解决？

红酒醒酒什么意思

凯迪拉克是德系车吗凯迪拉克是不是德系车

慈不掌兵后半句是什么意思