3分钟教程 | 一文教你轻松玩转分布类图形

Yonghong-Club 显示全部楼层 发表于 2017-9-29 16:51:07 |阅读模式 打印 上一主题 下一主题
​分布类图形是可视化分析中常用的一类图表,主要用来分析连续数据上数据分布的情况。分布类图形包括盒须图、散点图、热力图等,应用于不同的数据分析场景。

在实际数据分析的工作中,应该如何利用分布类图形,考察数据的分布特点呢?本文以一家连锁商超为例,为您介绍分布类图形的使用。

盒须图

盒须图是一种显示数据分布情况的统计图,从中可以观察到数据的分布是否密集、是否具有偏向性、是否存在异常值。盒须图包含六个重要的数据特征值,便于我们对数据分布的特点加以概括,这六个数值分别是上四分位数(上枢纽)、中位数、下四分位数(下枢纽)、最大值(上须)、最小值(下须)、异常值。
1.png
盒须图

盒须图的特征值有什么意义?
上四分位数(Q3)在一组从小到大按序排列的数据中,第75%个数据的数据值;

中位数:一组从小到大按序排列的数据中,第50%个数据的数据值;

下四分位数(Q1):一组从小到大按序排列的数据中,第25%个数据的数据值;

最大值:一组从小到大按序排列的数据的上边缘,计算方法为Q3+1.5(Q3-Q1);

最小值:一组从小到大按序排列的数据的下边缘,计算方法为Q1-1.5(Q3-Q1);

异常值:一组从小到大按序排列的数据中,超出最大值或最小值的数据点。

举个例子,我们有这样一组数列100 600 800 950,得出该组数据的六个特征值。
上四分位数:800 (四个数据中的第4*75%个数据的数据值)

中位数:(600+800)/2=700

下四分位数:600(四个数据中的第4*25%个数据的数据值)

最大值:800+1.5(800-600)=1100

最小值:600-1.5(800-600)=300

异常值:100(小于最小值300)

如何应用盒须图?

某商超人力部门近日进行了一次员工考核,对各分店的员工表现进行记录和分析。在得到员工的考核评分结果后,人力部门发现各分店的员工考核结果有较大差异:
一分店的员工表现差别最大,虽然有些员工表现不错,但也有相当一部分员工表现不佳,拉低了门店考核的整体成绩;

二分店的绝大多数员工考核成绩均较差,整体表现不佳;

三分店的大部分员工表现平平,优秀和较差的员工都较少;

四分店员工表现虽然也有较大差异,但总体表现优秀。

2.png
分店考核评分

接下来,我们深入分析一下该盒须图中蕴含的丰富信息。

首先,看一下该连锁商超所有分店的整体情况。得分最低的员工出现在二分店,而得分最高的员工在四分店。就员工的总体表现来看,四分店优于三分店,优于一分店,二分店最差。

再来仔细看一下各分店员工的具体表现。代表一分店的盒须图,盒形的上枢纽与下枢纽、上须与下须之间差距较大,说明员工的考核成绩差异较大,优秀员工与表现不佳的员工之间差距较大。下枢纽与最小值距离较近,说明表现最差的那部分员工得分都特别接近。

四分店与一分店情况类似。盒形的上枢纽与下枢纽、上须与下须之间间距较大,代表每个员工成绩的圆点较为分散,各种表现的员工都有,且优秀员工与表现不佳的员工之间分数差距较大。但是四分店中考核最差的员工,得分也优于一分店四分之一的员工和二分店一半的员工。既有部分表现优秀的员工,又没有表现特别糟糕的员工,使四分店的员工考核成绩整体偏好。

三分店与四分店有一个相似点,即都没有得分特别低的员工。三分店与四分店相比,最低分高于四分店。但是,三分店中最优秀的员工得分也不高,员工之间的表现差距并不大。员工的考核成绩多集中在盒须图的中部,表现一般的员工较多。

最后,来看一下二分店。二分店在四个分店中,考核成绩最差。多数员工表现特别差,得分低于三、四分店的最低成绩。最高考核评分也远远落后于其他分店,也就是说没有像其他分店一样特别优秀的员工。在整体得分偏低的情况下,高分员工与低分员工之间的差距较大。

总的来说,三分店、四分店的员工得分几乎均匀分布、没有明显的集中趋势;而一分店、二分店低分区域较为集中。一分店低分区域较为集中,商超可着重提高低分员工的工作表现;二分店低分区域集中,大部分员工得分较低,需对整体员工进行系统的培训;三分店得分几乎均匀分布,没有过低得分,也没有过高得分,可着重培养精英员工,提升员工的平均水平;四分店得分也较为分散,没有明显的集中趋势,通过竞争激励机制,引导员工得到进一步提高,培养更多精英员工。

热力图

热力图,简单地聚合大量数据,并通过渐进的色带实现优雅的可视化效果,直观地展现空间数据的疏密程度或频率高低。热力图常用来进行流量分析、分布分析、密度分析等需求。
3.png
热力图

该商超在店铺内部做了人流量分析。根据人群在不同货架处的密集程度,调整商品的摆放位置,达到销售额的最大化。

4.png
店铺人流量分析图

从商超的人流量分析图表来看,A区人流量最为密集,其次为B、C、G、E、D、F区。商超可以考虑将利润空间最大的商品摆放在A、B、C、G区。

散点图

散点图将所有的数据点展现在直角坐标系中,呈现数据的分布情况以及变量间的相关性。散点图十分适合两个连续变量的相关性分析,而这两个变量可能呈现正相关、负相关、不相关、线性相关、指数相关等关系。

5.png
散点图

某商超的销售额近日来有所下滑。管理层希望尽快采取措施,提高商品的销售额。他们考虑的其中一个因素,就是员工的业务知识。那么员工的业务知识与销售额到底有什么关联呢?

商超对员工的业务知识进行了一次考核,下面我们就来看看业务考核成绩与员工的销售业绩有没有关系。

6.png
员工业务知识与销售业绩的相关性分析

从业务知识与销售业绩的散点图中,我们发现,虽然个别业务水平不错的员工,销售业绩不尽人意,但整体来说员工的销售业绩与业务知识基本呈现正相关的关系。员工的业务知识越扎实,销售业绩往往越好。商超可对员工进行专业的业务知识培训,提高员工的业务水平,从而创造更多销售利润。

看完文章,心动了吗?想动手一试吗?永洪科技,国内领军的一站式大数据分析平台服务商。支持免费申请 Yonghong Z-Suite产品试用

回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |联系社区管理员|《永洪社区协议》
返回顶部