banner
大数据平台>新闻与活动>分布类图形怎么做

3分钟教程 | 一文教你轻松玩转分布类图形

作者: admin来源: 未知时间:2017-09-30 16:05:18

​分布类图形是可视化分析中常用的一类图表,主要用来分析连续数据上数据分布的情况。分布类图形包括盒须图、散点图、热力图等,应用于不同的数据分析场景。
 
在实际数据分析的工作中,应该如何利用分布类图形,考察数据的分布特点呢?本文以一家连锁商超为例,为您介绍分布类图形的使用。
 
盒须图
 
盒须图是一种显示数据分布情况的统计图,从中可以观察到数据的分布是否密集、是否具有偏向性、是否存在异常值。盒须图包含六个重要的数据特征值,便于我们对数据分布的特点加以概括,这六个数值分别是上四分位数(上枢纽)、中位数、下四分位数(下枢纽)、最大值(上须)、最小值(下须)、异常值。 
盒须图
 
盒须图的特征值有什么意义?
 
上四分位数(Q3)在一组从小到大按序排列的数据中,第75%个数据的数据值;

中位数:一组从小到大按序排列的数据中,第50%个数据的数据值;

下四分位数(Q1):一组从小到大按序排列的数据中,第25%个数据的数据值;

最大值:一组从小到大按序排列的数据的上边缘,计算方法为Q3+1.5(Q3-Q1);

最小值:一组从小到大按序排列的数据的下边缘,计算方法为Q1-1.5(Q3-Q1);

异常值:一组从小到大按序排列的数据中,超出最大值或最小值的数据点。
 
举个例子,我们有这样一组数列100 600 800 950,得出该组数据的六个特征值。
 
上四分位数:800 (四个数据中的第4*75%个数据的数据值)
 
中位数:(600+800)/2=700
 
下四分位数:600(四个数据中的第4*25%个数据的数据值)
 
最大值:800+1.5(800-600)=1100
 
最小值:600-1.5(800-600)=300
 
异常值:100(小于最小值300)
 
如何应用盒须图?
 
某商超人力部门近日进行了一次员工考核,对各分店的员工表现进行记录和分析。在得到员工的考核评分结果后,人力部门发现各分店的员工考核结果有较大差异:
 
一分店的员工表现差别最大,虽然有些员工表现不错,但也有相当一部分员工表现不佳,拉低了门店考核的整体成绩;

二分店的绝大多数员工考核成绩均较差,整体表现不佳;
 
三分店的大部分员工表现平平,优秀和较差的员工都较少;
 
四分店员工表现虽然也有较大差异,但总体表现优秀。

分店考核评分
 
接下来,我们深入分析一下该盒须图中蕴含的丰富信息。
 
首先,看一下该连锁商超所有分店的整体情况。得分最低的员工出现在二分店,而得分最高的员工在四分店。就员工的总体表现来看,四分店优于三分店,优于一分店,二分店最差。
 
再来仔细看一下各分店员工的具体表现。代表一分店的盒须图,盒形的上枢纽与下枢纽、上须与下须之间差距较大,说明员工的考核成绩差异较大,优秀员工与表现不佳的员工之间差距较大。下枢纽与最小值距离较近,说明表现最差的那部分员工得分都特别接近。
 
四分店与一分店情况类似。盒形的上枢纽与下枢纽、上须与下须之间间距较大,代表每个员工成绩的圆点较为分散,各种表现的员工都有,且优秀员工与表现不佳的员工之间分数差距较大。但是四分店中考核最差的员工,得分也优于一分店四分之一的员工和二分店一半的员工。既有部分表现优秀的员工,又没有表现特别糟糕的员工,使四分店的员工考核成绩整体偏好。
 
三分店与四分店有一个相似点,即都没有得分特别低的员工。三分店与四分店相比,最低分高于四分店。但是,三分店中最优秀的员工得分也不高,员工之间的表现差距并不大。员工的考核成绩多集中在盒须图的中部,表现一般的员工较多。
 
最后,来看一下二分店。二分店在四个分店中,考核成绩最差。多数员工表现特别差,得分低于三、四分店的最低成绩。最高考核评分也远远落后于其他分店,也就是说没有像其他分店一样特别优秀的员工。在整体得分偏低的情况下,高分员工与低分员工之间的差距较大。
 
总的来说,三分店、四分店的员工得分几乎均匀分布、没有明显的集中趋势;而一分店、二分店低分区域较为集中。一分店低分区域较为集中,商超可着重提高低分员工的工作表现;二分店低分区域集中,大部分员工得分较低,需对整体员工进行系统的培训;三分店得分几乎均匀分布,没有过低得分,也没有过高得分,可着重培养精英员工,提升员工的平均水平;四分店得分也较为分散,没有明显的集中趋势,通过竞争激励机制,引导员工得到进一步提高,培养更多精英员工。
 
 
热力图
 
热力图,简单地聚合大量数据,并通过渐进的色带实现优雅的可视化效果,直观地展现空间数据的疏密程度或频率高低。热力图常用来进行流量分析、分布分析、密度分析等需求。
热力图
 
该商超在店铺内部做了人流量分析。根据人群在不同货架处的密集程度,调整商品的摆放位置,达到销售额的最大化。

店铺人流量分析图
 
从商超的人流量分析图表来看,A区人流量最为密集,其次为B、C、G、E、D、F区。商超可以考虑将利润空间最大的商品摆放在A、B、C、G区。
 
 
散点图
 
散点图将所有的数据点展现在直角坐标系中,呈现数据的分布情况以及变量间的相关性。散点图十分适合两个连续变量的相关性分析,而这两个变量可能呈现正相关、负相关、不相关、线性相关、指数相关等关系。

散点图
 
某商超的销售额近日来有所下滑。管理层希望尽快采取措施,提高商品的销售额。他们考虑的其中一个因素,就是员工的业务知识。那么员工的业务知识与销售额到底有什么关联呢?
 
商超对员工的业务知识进行了一次考核,下面我们就来看看业务考核成绩与员工的销售业绩有没有关系。

员工业务知识与销售业绩的相关性分析
 
从业务知识与销售业绩的散点图中,我们发现,虽然个别业务水平不错的员工,销售业绩不尽人意,但整体来说员工的销售业绩与业务知识基本呈现正相关的关系。员工的业务知识越扎实,销售业绩往往越好。商超可对员工进行专业的业务知识培训,提高员工的业务水平,从而创造更多销售利润。

看完文章,心动了吗?想动手一试吗?永洪科技,国内领军的一站式大数据分析平台服务商。支持免费申请 Yonghong Z-Suite产品试用

 

banner
看过还想看
可能还想看
热点推荐
Yonghong的价值观:以卓越的数据技术为客户创造价值,实现客户成功。