banner

大数据分析与工业

作者: 大数据观察来源: 大数据观察时间:2017-05-23 18:13:170

大数据分析是个流行词,受到了世界工业界的普遍关注。大数据分析会对工业界带来极大的改变。但与此同时,在工业界从事大数据分析研究也是项高风险的工作。多数人可能会铩羽而归。了解大数据不难,关键我们要理解大数据的精髓。

一、从应用的角度看,数据量是否重要?

要研究一个问题,10条数据、100条数据和1万条数据有区别吗?在过去,差别不是很大。比如,做线性回归,样本数目比自变量多一个就够了;如果能多几倍,基本上就很充分。采用神经元方法时,样本数比变量多一个数量级也就差不多了。在这些方法中,数据多了也难以发挥再大的作用。

二、大数据分析的奥妙所在

但现实中,理论的假设却往往不成立。分析工业过程或设备时,数据的分布往往很不规范;随意的假设往往会带来错误的分析结论。再回头看看本文开头讲到的人口问题:我们假设孩子的性别按一定的概率发生。然而,这只是假设。事实上,这些年中国人口的出生比例就发生了很大的变化,而且各个省份也不一样。

有人或许要问:像神经元这些非传统方法,并没有对数据提什么要求啊?的确,神经元方法没有明确提出什么要求。但是,谁又能保证其结果的可靠性呢?其实,采用神经元方法也有个潜在要求:建模数据充分,且未来数据的分布不变。‘分布不变’的要求其实很高:不仅是数据分布范围和密度不变,还包括变量间的关系不变、干扰的分布不变。这种要求,在现实中是难以验证和说清楚的。于是,结果的可靠性也就说不清楚。这对实际应用是非常不利的。

三、大数据分析的具体应用

有了大量的、分布区域广阔的数据,不仅可以验证数据的合理性,还可以合理地组合数据,以满足特定的分析要求,以达到特定的分析目的。同时,数据多了,还可以通过分析结果的相互校验,多角度、全方位地分析特定结论的正确性——这一点,是小样本数据根本做不到的。尤其是数据误差相对较大或者相关因素较多时。

大数据的另外几个特征:“速度”、“多样性”“低价值密度”。

(1)产生速度快。增大了分析的难度,对应用带来的好处却不多,故而仅仅是在理论上有价值。

(2)低价值密度。也增加了分析的难度。但对应用来说,这是一种现象,似乎不值得强调。事实上,为了获得可靠的结果,个别的‘小数据’往往才是分析大数据的关键钥匙。而且,发现具有‘黑天鹅’性质的小数据,往往是研究大数据的重要目的。

(3)所谓‘多样性’,指有很多非结构化数据。也是增加理论难度、对实用无正面影响的因素。在现实中,数据分布越广越好,便于从不同角度和视野确定结论的可靠性。所以,我宁可把‘多样性’理解为数据分布的广泛性,而非数据形态的多样性。

综上所述,将大数据分析用于工业领域时,不可执着于‘原教旨主义’的认识。我们关注大数据,是为了创造价值,而不是追赶时髦的理论和领域。

用好工业大数据需要关注三个要点:

A、可靠性。可靠的结论才能用于工业实际。所谓可靠性,包含精确性、适用范围的广泛性和适用范围的可知性。现实中,绝对的可靠是不存在的,我们只能追求相对的可靠。相对的可靠,可以由尽量多的、独立的知识或分析结果来支撑。要做到可靠,就不能仅仅满足与‘相关性’,而是要尽量关注‘因果性’。

B、超越性。新发现的知识一定要超越人的认识,否则就没有价值。在商务活动中,人的认识相对模糊,大数据研究容易得到超越性的结果。在工业领域,人们对物理对象的了解往往非常深刻。肤浅的研究很难超越人的经验。这时,要让新知识超越人的经验,往往要以精确定量为基础的。

C、嵌入性。大数据的应用必须嵌入合适的流程。一般来说,仅仅满足于发现知识并不能创造价值。在工业应用中,常见的做法是将新发现的知识嵌入到生产和管理流程中去。最好用模型为载体来实现,促进流程的智能化。

更多精彩、大数据最新资讯、行业案例、解决方案,请扫一扫大数据魔镜微信号

 

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限