banner

百度数据分析之道

作者: afenxi来源: afenxi时间:2017-03-26 18:23:220

摘要:百度《数据分析之道主要》内容 什么是数据分析(道) –数据分析是什么? –什么是做好数据分析的关键? –分析要思考业务,尤其接地气 –分析要言之有物,行之有效 数据分析方法(术) 常见统计陷阱

 

内容摘要:

1)数据分析是什么?

字面拆解: 数据 + 分析

有骨有肉方成一个人

–分析是骨架(主)

–数据是血肉(附)

常见错误

–只有数据:机器报表不行么?

–只有分析:你是瞎猜的吧?

2)什么是做好数据分析的关键?

数据分析的核心:思路 > 方法

–思路:业务调研+逻辑思考+创新灵感+可行建议

–方法:汇总统计,Make it Simple(切忌喧兵夺主)

数据分析的价值与定位

–百度的T序列不重视数据分析(数据分析的能力难以评价)

–麦肯锡一个分析报告卖了上千万(仅有简单统计)

–数据分析对一个企业有巨大价值,作用于业务发展的前(探索)期或阶段性改进期(颠覆创新),先有数据分析,才能定业务模型,再后是建模优化(机器学习)

数据分析人才

–同样的数据,仁者见仁智者见智,分析人才的不可复制性

–做好数据分析的人不一定能当老大,但至少能当军师

百度数据分析之道-数据分析网 数据分析 之道

 

百度数据分析之道-数据分析网

 

百度数据分析之道-数据分析网 数据分析是什么?

 

字面拆解: 数据 + 分析 有骨有肉方成一个人 –分析是骨架(主) –数据是血肉(附) 常见错误 –只有数据:机器报表不行么? –只有分析:你是瞎猜的吧?

 

百度数据分析之道-数据分析网 什么是做好数据分析的关键?

 

数据分析的核心:思路 > 方法 –思路:业务调研+逻辑思考+创新灵感+可行建议 –方法:汇总统计,Make it Simple(切忌喧兵夺主) 数据分析的价值与定位 –百度的T序列不重视数据分析(数据分析的能力难以评价) –麦肯锡一个分析报告卖了上千万(仅有简单统计) –数据分析对一个企业有巨大价值,作用于业务发展的前(探索)期或阶段性改进期(颠覆创新),先有数据分析,才能定业务模型,再后是建模优化(机器学习) 数据分析人才 –同样的数据,仁者见仁智者见智,分析人才的不可复制性 –做好数据分析的人不一定能当老大,但至少能当军师

 

百度数据分析之道-数据分析网 分析要思考业务,尤其要接地气

 

数据分析要轻方法,重调研 –方法上,基本统计即可 –调研上,亲临一线去询问、了解实际情况,切近“数据空想” –只有熟悉业务,才能提供有价值的分析和建议

 

百度数据分析之道-数据分析网 客户流失仅仅是推广效果不够理想吗?

 

百度数据分析之道-数据分析网 分析要言之有物,行之有效

 

数据分析,我们真的是仅仅想分析么? 价值 –分析报告的及格线是“言之有物” --- 事实 –优秀线是“振聋发聩”或“醍醐灌顶” --- 分析 –满分线是产生了切实有效的行动方案 --- 建议 分析实例:我们处于市场领先地位,针对次位的竞争对手近期发展进行数据分析 –及格线:竞争对手发展势头很猛,市场份额怎样变化 –优秀线:虽然竞争对手近期势头发展很猛,但实际上他突出的优势在X,劣势在Y,未来可能会采取什么行动,同时市场上的其它竞争对手也不容忽视 –满分线:针对于竞争对手的可能动作,我们有如下方面需要改进:加强优势A、B、C,与X达成进一步战略合作关系,并收购Y等等

 

百度数据分析之道-数据分析网

 

百度数据分析之道-数据分析网 汇总统计

 

起源:用单个数或者数的小集合捕获可能很大值集的各种特征 –频率度量:众数 –位置度量:均值和中位数 –散度度量:极差和方差 –数据分布:频率表、直方图 –多元汇总统计:相关矩阵、协方差矩阵

 

百度数据分析之道-数据分析网 汇总数据指标的设计,源于非常朴素的思想

 

标准差:想设计一个指标,可以用来衡量数据集合的发散性,经过如下思考 –每个样本的偏差累加就可以衡量 (real num - mean)加和 –偏差较大的值应该具有更大的权重 (real num - mean)^2 –集合中数字越多,方差越大,应该与集合大小无关 Mean((real num - mean)^2) –量纲与原始数据不同,无法比 Sqrt(Mean((real num - mean)^2)) –最终结果,RMSE

 

百度数据分析之道-数据分析网 汇总统计 --- 需要多少样本

 

在美国总统选举的各种民意测验中,关于支持率的一个常用标准是置信度为95%(误差在+-2.5%以内,置信区间宽度为5%),那么要达到这样的标准需要多少人呢?

 

计算出N=1067,至少要一千个样本以上,才能满足需求 –Z0.025=1.96, 通过R语句 qnorm(0.025, low=F)得到 –n是样本数量,n越大,置信区间越小 –p是真实的概率,p=0.5时候,p(1-p)最小,所需n最大

 

百度数据分析之道-数据分析网 汇总统计 --- 细拆与汇总的权衡

 

在数据量充足的时候,加一些维度、拆的更细,使得每个小格里的样本更加类似,结论更加准确但数据不足或分拆未带来结论改变,就不能再拆,以免结果失去统计意义。

 

百度数据分析之道-数据分析网 OLAP 概念 --- 汇总统计的极致工具

 

百度数据分析之道-数据分析网 机器学习 --- 模型为什么work?

 

为什么存在实例“毛泽东抽烟比林彪不抽烟活的久”,还要劝人不要抽烟? –概率分布问题,“人事”与“天命” –虽然选择健康的生活方式(尽人事),我们也得听天命(自己是正态曲线的好尾巴,还是坏尾巴),但是天命整体分布可以变得更好(正态曲线的中轴向好的一面偏移) 如果没有附加的抽烟信息,如何从一组寿龄数据中作预测? –目标:MSE做为评价指标,MSE越小越好 –方法:数据为正态分布的话,中位数(即波峰)做为预测值使得MSE最小 通过如上两点,证明抽烟信息对预测是有效的,如果一个人抽烟,那么我们预测他活到70岁,否则75岁 如果再多一个酗酒的信息呢?

 

百度数据分析之道-数据分析网

 

百度数据分析之道-数据分析网

 

百度数据分析之道-数据分析网 精心挑选的平均数

 

实例:小区业主申请减税 vs 卖房子 当数据分布呈现正态分布特点(钟形的曲线)时,均值、中位数、众数都落在相同的点上。而数据分布成有偏差的特征(类似于滑梯)时,那么均值、众数、中位数就相差甚远了。 以书思今,学以致用 –分布与平均数一样重要 –两个特例往往使得数据的统计结果产生很大的变化

 

百度数据分析之道-数据分析网 无所不能的图形

 

同样一份数据,2010年的前6个月,使用产品的客户数量由最初的2w,以每个月100个的速度增长。

 

百度数据分析之道-数据分析网 缺失或不匹配的比较

 

实例1(缺失的比较) –临床显示,本药品在10分钟内可以杀死5w个感冒病毒 –数据因为缺失了比较对象,而毫无意义 实例2(不匹配的比较) –美国海军的死亡率是0.9%, 而同时期纽约市民的死亡率是1.6%,得出结论参军是很安全的。 –比较对象不明确、或者根本不可比,也是常见的 以书思今,学以致用 –为什么评估策略效果要有对照组?

 

百度数据分析之道-数据分析网 偏差的抽样

 

实例 –10个硬币抛1000次,总会出现10个正面或9个正面的情况 –全国人民喜闻乐见油价上涨,水价听证会大家纷纷反馈价格上涨影响不大 –采用有偏差的样本,可以产生任何人需要的任何结果 在抽样统计的时候,要充分思考抽样的过程对样本造成了怎样的偏差,以及这个偏差对我们的结论有什么影响 以书思今,学以致用 –分层抽样

 

百度数据分析之道-数据分析网 挂羊头卖狗肉的推理

 

实例 –公司与工会发生了摩擦,于是公司进行了一项“调查”来统计多少职员对工会不满。公司公布了这样的结论:“大多数(78%)的职员反对工会,所以有必要取消工会。” –360打官司老败诉,腾讯打官司总胜诉,周鸿祎:“真的是东方不败!与腾讯强大的法务相比,我们实力不济,自愧不如!” 最普遍的表现是将看上去极像,而完全不同的两件事混淆在一起,得出了似是而非的推理。 笑一下 –小品《卖拐》中“脚麻”的桥段

 

百度数据分析之道-数据分析网

 

百度数据分析之道-数据分析网

 

百度数据分析之道-数据分析网

 

百度数据分析之道-数据分析网

 

百度数据分析之道-数据分析网

 

百度数据分析之道-数据分析网

 

百度数据分析之道-数据分析网

原创文章,作者:数据特工,如若转载,请注明出处:《百度数据分析之道》https://www.afenxi.com/post/9652

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限