banner

大数据,也就那么回事——一个“码农”眼中的大数据

作者: 大数据观察来源: 大数据观察时间:2017-06-14 14:41:490

大数据,自从这个“高大上”的概念出现,便像病毒一样蔓延,以至于对于我们这种搞IT的人员来说,不了解这个概念似乎都不好意思承认自己是干这一行的,估计各大软件公司也都已经或者准备涉足这个领域。本人所在的公司也一样,近期一直强行推广相关的技术。不过,不清楚我们的那些大BOSS们到底是装懂呢,还是装懂呢,还是装懂呢,总感觉这种推广的方式有些偏离了大数据的实际含义。

相关文章:一个文科教授眼中的大数据:多、快、糙、耗?

本人自认为一直从事着数据处理方面的工作,长期以来,工作的流程一直是:各运营商会提供各自的接口(比如FTP),从接口处取得各种类型的文件(例如 csv格式、xml格式,甚至包括二进制文件),解析文件并将所需要的信息取出后load到数据库中;入库后,有些数据会针对时间粒度或者空间粒度进行汇总处理;然后,对于本人来说就木有然后了,会有另外一批人员进行上层界面的开发,根据数据库中的原始数据或者汇总后的数据,做出一个很炫的界面以显示这些信息,并提供给客户使用。

之所以要推广大数据相关的技术,是因为需要处理的数据量越来越大,而且以后还会有继续增大的趋势;而由于数据采集的实时性,需要对处理的效率有一定的要求(一般数据是每小时都会生成的,如果一次处理在一小时只能还无法完成,那结果可想而知)。基于这些原因,引进了大数据相关的诸如Hadoop的技术。然而,这就是唯一的区别,仅仅是将数据处理部分从原先的程序改成通过那种“高科技”的方式实现,仅有的区别就是直接得到汇总后的结果并将其导入到数据库中。处理后,相关的数据将彻底完成历史使命,并于一段时间以后“灰飞烟灭”。

这就是传说中的大数据乎?深表怀疑,也许充其量就是数据量比较大的数据罢了。

于是乎,在工作之余,研究了一下传说中的“大数据”,发现它确实不是这个样子的,它是一种全新的思维模式,甚至跟数据量的大小本身没有半毛钱关系。与此同时,也深深的感受到,长时间在这么一个安逸的工作环境下,自己确实已经有些out了。也许,真到了应该充充电、全面提升自己的时候了。

不过,出于多年以来的习惯,总是有反权威的倾向,喜欢按照自己的方式理解,而不是对所有理论完全照搬;而且,总喜欢将自己的理解用一种完全另类的方式表达出来,于是,才有了下面的文字。在此声明,本作品纯属自娱自乐,如果其中的某些部分对各位有那么一丁点儿帮助,能够成为各位的非物质文化遗产,那也算功德一件;如果感觉没有任何实际的价值,那也不要浪费各位的宝贵时间,直接无视即可。当然,由于是初学者,理解上势必会有一些偏差或者不足,所以也欢迎各位能够以“就事论事”的方式进行学术上的探讨。

1.1 引言

诈骗短信、广告推销短信,都是让人很闹心的;如果再被这些短信骗了一下,那估计就更闹心了。然而,如果留意一下这些短信,会发现这类短信的精确性越来越强:比如刚买完房子的,就收到了装修类的广告短信;刚有了小孩,就收到了婴儿产品的广告短信;刚到银行准备准备汇款,就收到了陌生的汇款账号……确实,随着时代的进步,骗子这个行业也在与时俱进。

最开始的时候,这类骗子们还属于完全没有技术含量,就是单纯的随机发送,或者对某个号码段进行全覆盖发送。然而这种方式确实很不实惠,就算短信一毛钱一条,这样疯狂的发送也是很耗成本的;而且这种方式会出现将大量的信息发给空号或者废号,即使是发给正在使用的号码,如果接收方都是那些不太可能上钩或者对相应内容完全不感兴趣的,那也只能“点儿背不能怨社会”了。

接下来,骗子们就通过买一些相关信息,从而更有针对性的发送短信。但随着社会的进步,人们也重视了个人信息的安全性,更多的相关人员也提高的职业操守,导致了相关信息的购买成本提高以至于可能达到不划算的程度,甚至有可能出多少钱都买不到相关信息。

然而,一个好东西的出现解决了骗子们的困境,而且这个东西的构造并不复杂,只需要一部手机、一个短信发射器、一台电脑、一根天线、一个电瓶,以及一个电源转化器,将这六个并不昂贵的机器其组装到一起,就可以使用了。这个东西又一个学名,叫做“伪基站”。

它的工作原理也很简单,就是在一定范围内,屏蔽掉所有运营商的信号,使其只能接受到这个伪基站的信号,同时搜索在这个范围内的所有手机号,通过这个伪基站的信号将短信发送到这些手机中。这样就可以用很低的成本,定点的发送诈骗或者广告推销短信。比如,在售楼处附近安装一个伪基站,用来发送装修类的广告短信,就可以基本达到他们想要的效果。只要拥有这么一个“伪基站”,就可能获得意想不到的收益,绝对的商机无限,而且该工具价格公道、童叟无欺,是居家旅行必备“神器”……

不对呀,作为一个社会主义好公民,貌似是不应该干这种违法的事情的。确实,对于这种违法行为,确实需要严厉打击。但关键是,怎么打击呢?

这类违法行为的最大特点是没有特点,因为可以把这个“伪基站”放在任意一个角落:出租屋、宾馆客房,甚至可以放在行进中的车里(只要车速低于一个值,这种“伪基站”依然可以正常工作)。它不像抓扒手那样,只要盯着了车站、商场这类地点就可以了,而是需要关注几乎全部的角落。

如果加大警力,也许可以实现上面的目标(同时顺便解决一些人的就业问题),但这里还有一个更让人头疼的问题。对于扒手,不管多么有技术含量的,它都是需要在公共场所进行的,所以那些有经验的反扒**们可以直接看到扒手们工作的全过程,这样就可以将其抓个现行。然而这种利用“伪基站”的人们,是绝对不可能脑残到把这个东西安装在公共场所的,必然是安装在封闭的空间中:比如门窗都上锁并且拉上窗帘的房间中,或者车窗为黑色以至于无法从外面看到里面情形的车里。在正常情况下,除非得到准确情报,否则的话,**是没有权利进入室内或者车上进行搜查的。这种对公民自由权、隐私权的保护,反而给骗子们留下了生存的空间。

当然,还有“除非得到准确情报”这个例外,接下来的问题就是,这个情报从何而来。至少,从骗子那里直接获取的可能性几乎没有,应该不会有哪个骗子会脑残到自己发一个类似“在哪儿安装的伪基站真好用,赚了多少前”这样的微博。

既然这种“伪基站”是因为技术的进步而生产出来的,那么同样通过技术方式是否就解决这种问题呢?貌似还有些希望。由于在使用伪基站的时候,在相应范围内的手机会出现短暂断网的现象,如果某个区域内的大部分手机都出现这种断网的现象,并且紧接着就会收到相关的短信息,就可以认为那附近可能有人安装了伪基站。原理很简单,而且似乎也有实现的可能(毕竟这种断网导致的客户满意度的下降也是各运营商所不愿意看到的,所以运营商和警方之间是有合作意愿的),但仔细想来,这还远远不够。

首先,由于它需要覆盖一个很大的范围,会涉及到大量的数据。即便是单单一个城市,统计在整个区域内的所有手机在所有时间点内的信息,那都不是一件容易的事情。就算是仅仅保存,也需要很大的空间;如果再加上分析处理呢,难易想象。

其次,骗子们可不会老老实实的等着**来抓,也许我们辛辛苦苦分析出来了他们位置的时候,他们已经完成了当天的工作并将相应工具藏好了,或者换到了另外一个地方(最典型的情形就是将“伪基站”安装在车里,等确定位置再来抓捕的时候,可能已经不知道那辆车开到哪里去了,这里还没包括可能由于遇到上下班高峰期导致在路上所消耗的时间)。

这样看来,此题似乎要无解了。

确实,在传统的技术手段上,它是无解的。但我们现在有了一个新的思路,通过它,我们就能够解决这个问题。它的名字叫做——“大数据”。

1.2 什么是大数据

随着业务量的增加,需要处理的数据量也在增加,当然,相应服务器的处理能力也在提高。就目前而言,如果数据没有达到上万条记录,处理它所耗费的时间基本上可以忽略不计;对于处理几万条记录的情况,消耗的时间完全可以实现以秒为单位(当然,这个秒数不会很大);对于上十万数量级的情况,只要处理流程合理,分分钟解决战斗的可能性也是有的;到了上百万数量级的情况,只要处理流程足够合理、服务器足够给力,所消耗的时间也是在可以忍受的范围之内;如果是上千万数量级的情况呢,最多就是需要一些耐心,当然,前提同样是处理流程足够合理以及服务器足够给力;对于上亿条记录呢……如果还能忍受的话,这个数量级还会不断增加,直至无法处理。

也许某些人会认为,对于那种数据量超过一定数值,以至于传统的技术无法实现的,就是传说中的“大数据”。而实际上真的是这样吗?

数据量达到多少的才能被称为“大数据”?这似乎是个伪命题,就像“有多少根头发才不会被认为是秃子”一样,是一个没有确切答案的问题。当然,我们可以认为,头发少于100根的就算作秃子,但有101根头发的算吗,102根的呢……这个数加到多少才合适呢?这已经够纠结的了,但更重要的一点是,即使存在这么一个数,能够成为秃子和非秃子之间的分水岭,那谁会有闲工夫去数一个人到底又多少根头发,即便那个人没多少根毛儿。对于大数据也一样:首先,没有一个确切的数值或者数量级能够作为是否是大数据的分界线;其次,对于海量的数量来说,谁会闲的没事一条记录、一条记录的数。

其实,“大数据”并不是一个确切的名称,它本身就带有一定的欺骗性。所谓的“大数据”,并不在于它的数据量大,而是在于它的数据——“全”。通过分析全部的数据找到相应的规律从而对未来进行预测,这才是大数据的主要思想。

维克托·迈尔·舍恩伯格同学曾在他的作品《大数据时代》中总结了相对于传统的思维模式,大数据时代需要做出的三个转变,也可以说是大数据思维模式的三个理念。这里也不准备标新立异了,还是沿着这个思路。不过,对于这种观点,我们还是需要批判的看待,既不能像网上某些人的评论那样将其批判的一无是处,也不能不假思索的全盘接受。用马克思主义哲学的说法,只有使用去粗取精、去伪存真的方式,取其精华,弃其糟粕,才能真正了解其精髓,从而实现继承和发扬。

1.1.1 大数据的理念之:用全量代替样本

1841年埃德加·爱伦·坡发表了文学史上的第一部侦探小说《莫格街谋杀案》,尽管这部小说的解答有些欠抽,但不可否认,它开创了侦探小说的一种模式 ——“密室”,而这种模式被后来人所追随,以至于似乎没有写过这种类型小说的都不算是侦探小说作家。所谓的“密室”,就是在一个封闭的空间内犯下的凶案,终极目标就是解答出凶手的犯案方式以及如何从密室中逃脱。在一代又一代的侦探小说家的努力下,密室的难度越来越大,从正常人无法进入到所有人类都无法进入,直至正常情况下所有生物都无法进入。然而即便这样,如果严格来说的话,绝对的密室是不存在的,它肯定会有空隙,就算看起来密不透风也从微观的角度找到某些空隙。既然不可能达到绝对的封闭,只能使用相对的概念,对于正常人无法进入的空间都属于密室,否则整个侦探小说界就少了一个很重要的组成部分。

刚接触化学课的时候,接触到了纯净物和混合物的概念,与此同时也提到了,绝对的纯净物是不存在的,即使是再精确的提纯。于是,对于一种物质,只要没有提到存在杂质,默认按照纯净物来看待,否则就不仅仅是几道考试题的问题了,可能整个化学学科的研究都没法开展下去了。例如两种物质发生反应,如果按照实际情况都当作混合物看待,不断的纠结于各种杂质的问题,那就偏离了真正的研究方向。

举了上面两个貌似不相干的例子,想表达的观点就是,和多、少这类的相对概念一样,实际上全也是一个相对的概念,绝对的全也是不存在的。之所以这么说,主要有两方面的原因:

首先,当数据量超过一个范围之后,取得全部信息会很复杂,以至于可能根本是无法完成的任务。如果要获取一个学校所有学生的某个信息,这个很容易,只需要将全校的学生聚集起来一起获取,或者以班级为单位单独获取之后再进行汇总,因为一个学校不管有多大,学生人数都不会太大。而如果要获取全市所有人的某个信息呢,这似乎就是不可能的了:如果在大街上随机询问,对于那些不出门的宅男、宅女们的信息就没法获取;如果挨家挨户进行询问,对于那种经常不在家的就不太容易能遇到,而且那种无家可归的流浪汉的信息也没有办法获取;如果通过电话询问,也肯定有因为某种原因无非接电话的人,或者看到是陌生号码就是不接的;也许互联网可以解决这种问题,但肯定有那种一心只跳广场舞、对网络世界一窍不通的大爷、大妈们,就算是网络一族,也有可能因为不关注或者不感兴趣而对此完全无视。就算可以获取全市所有人的信息,那推广到全省、全国呢。要知道,所谓的所有人,包括那种没有户籍的“黑户”,以及那种隐姓埋名的在逃犯等人群。

就算这个问题可以随着技术的进步得以解决,那么接下来的问题就是在理论上都无法解决的,那就是有些属性是连续的,比如时间、空间的概念。就像无法穷尽 (0,1)之间的所有有理数一样,取某个时间范围内所有时间点的某个信息,或者某个空间区域中所有位置的某个信息,从理论上讲都是不可能的,因为所有的数据都只能获取离散的信息点。

综上,获取全部数据,在理论上和实际上都是不可能实现的,那么就只能变通一下。对于第一种情况,可以缩小调查范围,只关注某种类型的信息,毕竟对于另外类型的信息有可能根本没有实际意义,比如电商们不会关注那些从来不网购的人们是怎么想的;同时默认,只要获取的信息量超过总量的一个比例,就认为它是全部数据。而对于第二种情况,可以通过细分相应属性来实现,比如在某个时间范围内每隔0.1秒获取一次信息,就可以认为是全部的时间点,毕竟这基本上是人类的最快反应速度,要知道,百米比赛中发令枪响之后0.1秒之内起跑的也属于抢跑。

当然,随着技术的发展,在数据全面这一点上,会越来越趋近这个目标。尽管离这个目标还有一定的距离,但现在已经默认我们掌握了全部的数据。之所以可以这样假设,是因为所谓的“大数据”,更多的是一种思想,通过这种思想可以得到之前无法得到的结论。

之所以这么说,是因为“大数据”思维和传统的思维有本质的区别。

记得当年学习关于抽样检验相关知识的时候,举过的一个例子,验证一批灯泡的使用寿命,需要随机抽取一定数量的灯泡,通过这些灯泡的测试结果来验证这一批灯泡的合格率大约是多少。由于灯泡在测试完之后就没法再使用了,所以无法采取全量的方式,因为如果那样做的话,最终得到的会是一个绝对正确的结论和一堆废品。

由于上述原因,只能通过抽样的方式进行这样的检验,于是形成了一套抽样检验的理论,包括如果进行随机抽样,以及形成了期望、方差等统计学概念,最终形成了概率论与数理统计这样的学科。

接下来的问题就是,对于那些没被抽样检测的灯泡,它的使用寿命信息就没有实际意义了吗?显然不是。如果通过某种方式可以获取了某工厂生产的所有使用过的灯泡的寿命(以目前的技术,这种信息应该是可以获取的),就可以得到一些可能更有用的信息,比如可以通过找到哪些因素可以让灯泡的使用寿命更长,提高制作工艺从而提升整体的产品质量。当然,这仅仅是最容易想到的,实际上能够获取的信息会更多。

而这种思维方式就是“大数据”的思维方式,它是处理那些已经完成历史使命的数据,在这种海量的历史数据中找出规律,从而对未来进行预测;或者找到相关的影响因素,从而改善方案以达到利益最大化。

数据,和普通的商品不同,并不会随着它的使用而消失;只要有足够的存储空间存放,它便会一直保留着。而“大数据”思维,恰恰是在处理这种已经使用过的数据,并从中获取到想要的信息。也许对于一次交易,只要结算完毕,交易信息就完成了历史使命;对于一次实时检测,只要得到结果并判断是否需要人工干预,检测信息就完成了历史使命;对于一次网络检索,只要找到需要的信息,查询结果信息就完成了历史使命……然而,只要把这些已经完成历史使命的数据都汇集起来,也许会得到意想不到的结果。因为随着数量的累积,它会慢慢的诱发质变。

中国古人有一句谚语:“熟读唐诗三百首,不会作诗也会吟。”西方侦探小说里的人物福尔摩斯也曾经曰过:“你掌握一百个案子的来龙去脉,第一百零一个案子一定不会在你的算计之外。”这两个貌似风马牛不相及的言论,恰恰反映了同一个理论,就是上学的时候**课上经常讲的“量变到质变”的理论,只要量变达到了一定程度,就会带来质的飞跃。

其实分析一下,道理是一样的:

对于唐诗,只要被创造出来,抒发了诗人的情感,它就已经完成了历史使命。而通过熟读前人的诗词,只要达到了一定的数量(肯定是不止三百首了),以至于几乎熟读过所有前人的诗词,就能够分析出怎样才能写好一首诗,从而创造出新的诗篇来。

对于案件,只要经过调查分析,找到凶手及相关信息,最终结案,它就已经完成了历史使命。而通过研究前人侦破的案件,只要达到了一定的数量(肯定是不止一百个了),以至于几乎研究过所有案件的所有相关信息,就能够获得破案的思路和方法,从而当遇到新的案件时,就可以按照正确的侦破方向进行。

当然,上面的言论有人为拔高的成分,不能这些言论都算作大数据的思维方式,然而所谓的“大数据”思维方式肯定不是凭空产生的,而它的来源其实就是这种“量变到质变”的理论。毕竟,在一定的范围内,没有比全部数据的量更大的数据集了。

1.1.2 大数据的理念之:兼容不精确

自然博物馆,一游客问馆里的讲解员某个古生物化石距今有多少年,讲解员答曰:“五百万零二十年。”游客不解,问这二十年是哪儿来的,讲解员说:“我刚参加工作的时候,这个古生物化石距今有五百万年;我现在工作了二十年,所以,这个古生物化石距今有五百万零二十年。”当然,这仅仅是个段子。但从另一方面也说明了,当数量超过了一定的范围之后,其精确性已经不重要了。

然而,什么属于精确性呢?

上学的时候应该都听老师讲过这样的故事,说美国挑战者号出现故障即将坠毁的时候,给航天员对自己亲人做最后嘱托的机会。其中一个航天员对自己的儿子说,挑战者号之所以出现故障,就是因为错了一个小数点。当然,正常情况下这个时候老师都会用富含感情的话语表达,就那么一个小小的错误就导致了那么大的灾难,所以在以后的学习生活中,要认真、仔细、严谨……

先不去纠结这个故事是否是中国教育界的原创,仔细想一下,小数点的错误真的是一个小小的错误吗?

小数点本身是不会出错的,没有人会把它写成别的符号。这里说的小数点错误,只有一种可能,就是小数点的位置有误,包括该有小数点的地方没加小数点,以及不该有小数点的地方却加上了小数点,这意味着,整个的数量级都是错误的。而航天相关的计算中,很少使用加减法,更多的是乘、除,以及乘方等运算,这样会导致最终的结果也会出现数量级的错误,而这种错误,与正确结果至少相差十倍。这样看来,这个小数点还能算作小问题吗?

而与此同时,在高中物理课上,关于万有引力相关的部分(包括一些航天相关的),很多情况下的计算结果并不要求十分精确,只要数量级是正确的、并且前面的数值在某个范围内,就算正确,甚至高考的时候都是这样。也就是说,在这种特殊的领域,对于小数点后几位的值,是没必要十分精确的,尽管它的绝对数值也许会很大(如果数量级很大的话,小数点之后很多位所代表的实际数值也会是很大的)。

就像这部分开头的段子那样,对于人来说,二十年是一个很大的数量,人生能有几个二十年呢;但对于远古时期的化石来说,甚至两百年、两千年都是可以被忽略不计的。同样,对于地球上生活的人类来说,一公里是一个比较长的距离,但是在茫茫宇宙,它也是可以被忽略不计的部分。我们会用几万年前、几百万年前或者几亿年前来记录古生物所处的时期,会用光年作为单位去衡量宇宙中的距离,尽管这样的数值是不需要精确到具体多少年或者具体多少公里,但如果年限的数量级、光年前面的整数位数值都是错误的,那这样的数据也就是失去了它的意义。

这就是大数据所谓的不要求精确性,它仅仅是不去纠结于那些被忽略不计的小数点后多少位的具体值;然而,它并不意味着准确性也不做要求,如果整数位、甚至数量级本身就是错误的,那得出的结论就会与实际情况相差很远,也就失去了它的意义和价值。

当然,之所以可以不要求精确性,也是因为“大数据”处理的是历史数据。对于一些正在使用的数据来说,是需要精确性的:银行账户上的金额,以及支付宝、余额宝相关的交易金额,这些都是需要完全精确的,以保证社会的公平;某些观测数据也是需要精确性的,也许小数点后的某一位的区别,都可能得到不同的结果;甚至对于一些医疗相关的数据,也许几毫克的差别都会影响着一个生命是否会消逝;更别说还有其他意义更加重大的数据了。然而,等到“大数据”进行处理的时候,它实际上已经完成了历史使命,那么即使它不是十分精确,至少不会造成严重的后果。

而事实上,当数据量达到一定程度的时候,数据本身就无法保证其准确性了。比如,当每小时只测量一次的时候,可以认认真真、仔仔细细的进行测量,这样的数据可以说是准确的;但如果每几分钟就要测一次呢,就无法保证每一次都非常认真,就不可能十分精确;当每几秒钟就需要测一次的话,人工就无法实现了,必须借助工具,数据的准确程度就与相应的工具息息相关;而如果一秒中要测量多次呢,也许再精妙的工具都无法保证每一条数据都是非常精确的。

各种理论直接往往都是相通的,量子物理学里有一个“测不准原理”,而在大数据领域也有类似的原理,即在测量的密度增大之后,测量值的不确定性就会增加。当然,这并不能阻碍大数据的使用,因为这样的数据之间是可以进行相互印证的。

一般情况下,“大数据”是不会只使用一种数据来源的,它会将多个数据来源进行综合分析,从而实现各数据信息之间的相互印证。而这种互相印证的过程,也是去粗取精、去伪存真的过程,这样一来利用不精确的数据源,反而能够获得更加准确的结论。

不过,这导致了数据的结构化程度降低了。对于传统技术而言,一般处理的都是结构化的数据,即每条记录都有同样的结构,而且几乎包含了所有指标的信息。然而,“大数据”所处理的数据,还包含半结构化或者非结构化的,甚至是图片、音频、视频等非文本的。这也就是相对于传统技术而言,大数据技术的一个飞跃性的提升。

也许在面对这种所谓的“大数据”的情形,很类似一名警官面对一桩复杂的案件。在他的面前有各种线索:有可能让人的消化道不舒服的死者的状态,有现场的情况(包括实地观测及相关的照片信息),有与死者相关的人物信息及与死者的关系情况(主要是利益关系以及是否彼此之间有矛盾),有目击者或者相关人员的证词,有通过法医学测验得出的各种结论,甚至包括现场周围监控录像的内容……最终的目的就是将这些信息整合成一个完整的证据链,发现以及证明谁是凶手。类似的,这些线索中,有跟案件紧密联系的,也有跟本案毫无关系的干扰信息,也有因为种种原因导致的不完全准确甚至完全不准确的信息,甚至也有凶手为了干扰办案人员故意给出的假线索。当处理这些浩如烟海的线索的时候,不仅需要通过单个线索获得相应的结论,还需要将各线索的得出的结论进行综合分析、互相印证,这样才能最终得到正确的结论。

其实人生也一样,一方面,生活本身就是繁杂的(写这篇文章的方式也尽可能符合这一点,即尽可能包罗万象),“结构化”的只是其中的一小部分,更多的是“非结构化”的。

哪怕是仅仅作为一个“码农”,也是一样的:如果只了解所使用的技术,哪怕研究得再深入,那也是一个低层次的“码农”;想要成为一名高层次的“码农”,还需要了解一些看起来跟编码没有半毛钱关系的知识。

我们都知道爱因斯坦作为一名科学家所获得的成绩,而与此同时,他还是一个优秀的小提琴手,在音乐上也有很深的造诣。很难想象,如果爱因斯坦的脑子里只有一个个冰冷的物理公式,他是否还能做出这么大的成绩。

随着信息时代的到来,我们已经不需要陈景润式的人物了,更需要的是对多个领域都有所了解的人才,或者说是“一专多能”式的人才,这样才能整合各领域的信息,在更高的层面上有所建树。

另一方面,生活本身也是不完美的。当然,我们需要有追求完美的精神;但是,如果刻意的追求完美,一味的纠结于各种细节,反而会“因为一片树叶而失去了整个森林”。同样的,精确性是我们的努力的目标,但我们应该清楚,绝对的精确是不存在的。

1.1.3 大数据的理念之:更加关注相关规律

在这一点上,我们的维克托同学给出了一个“标新立异”的观点,即只关注关联关系,不关注因果关系。这也许是很多人,包括翻译那部作品的那位同学,坚决持反对态度的一个观点。然而,是不是我们没有理解作者的意图呢?

经过了八年的豌豆实验,孟德尔先生发现了遗传学的两大定律:分离定律和自由组合定律。而此时他发现的仅仅是关联关系,即对于某一类相对性状,存在显性和隐性,如果将两个不同性状的物种进行杂交,其后代呈现显性性状;而如果将这些呈现显性性状的第二代物种彼此之间进行杂交,其第三代中所呈现的显性性状与隐性性状的比例约为3:1。而至于为什么会是这样,以当时的情况,是无法解释的。

在此之后,科学家们在细胞核内发现的染色体,并在染色体中发现的遗传基因,同时也发现了染色体是成对出现的,以及在细胞的有丝**和减数**时染色体的状态,甚至发现了遗传基因的载体DNA的双螺旋结构。在此基础上提出的显性基因和隐性基因的理论,从而解释了孟德尔的遗传定律。

然而,这就是根本原因吗?显然不是,至少为什么第二代会呈现出显性基因的性状,这还是一个未解之谜。要想知道这个的原因,需要了解关于DNA的更多的信息,甚至在此之外还有更多需要研究的地方。

而这里的第一部分,我们可以理解成另外一个大数据分析的步骤,通过对海量的数据进行分析处理之后得到了一个关联关系。然后呢,就木有然后了。如果想要知道因果关系,即这个关联关系的相关原理,需要从理论高度进行研究,或者通过其他途径得到其本质原因,而大数据本身对此是无能为力的。

其实很多的科学研究的过程都是这样:先通过一些实验数据得到一个结论或者假说(即上面提到的关联关系),再通过理论推导或者更高层次的研究,了解其本质(即因果关系)。而大数据所扮演的仅仅是先前的实验过程而已。

故曰,之所以说大数据不关注因果关系,是因为它本身是无法得到因果关系的,并不是说因果关系不重要。

由于因果关系需要进行严谨的分析,甚至需要一点点的灵感,它并不是在短时间内能够得到的。而经过大数据的分析,已经基本上可以保证关联关系的准确性,而且其本身还属于“仅供参考”的范畴,直接使用得到的结论,至少结果不会太糟(除非分析方法严重有误)。在追求效率的今天,这种“先斩后奏”还是值得尝试的。

况且,如果没有通过大数据得到的关联关系,对于相关因果关系的探求就没有了方向。所以说,大数据仅仅是第一步,唯一的区别就是,在没有得到因果关系之前,相应的结论就可以放心大胆的使用;而对于相应的因果关系,那是给想要获得诺贝尔奖的人们准备的。

当然,上面的例子是有关自然科学方面的,而对于社会科学方面,情况会更加复杂。

依在下的愚见,社会学中的结论,只有规律,无法找到本质的原因,因为人的行动本身就是复杂的、不确定的,它跟自然科学的严谨性、必然性是有区别的。就像大数据中的一个经典案例,在季节性飓风来临之前,一种蛋挞的销售量会增加。而这个结论只能说明,在那个时期,某一部分人更想要购买蛋挞这种食物,至于为什么他们会做出这种选择,可能每个人都会有各自的原因。而这个结论肯定是有地域性的,至少它仅仅在西方有效,对于在中国的沃尔玛超市肯定不会使用这个结论。尽管自己也是生长于大城市里的,而且也尚属年轻,但对于蛋挞这种食物,也仅仅是在广告中遇到过;对于自己的长辈来说,可能根本不知道这个世界上还有那么一个东东,更别说那些小城镇、甚至乡村里的人们了。当然,如果非要在咱们中国使用这个结论也未尝不可,因为这里不会出现飓风。在这里,这种类似的灾难性气候的学名叫做“台风”。

就跟上面的例子一样,往往通过大数据获取的结论都是让人匪夷所思的,或者跟人们正常的观点不同的,甚至有可能是“毁三观”的。毕竟,如果所有的结论都和使用传统的方式得出的结论类似,大数据本身就没有存在的意义了。

在此声明,下面的例子都是我个人的观点,未经过大数据的验证。只不过在我看来,如果使用大数据进行分析的话,很有可能得到类似的结论。

近几年,出现了很多关于富二代的负面新闻,比如早期的“七十码”事件,以及后来的“我爸是李刚”事件,包括文艺界的李某某事件、龙公子事件,这几个富二代中的熊孩子完全玷污了他们所在的这个群落。于是各大媒体都开始关注富二代教育的问题,然而,最需要关注的是这类人群吗?

再往前推几年,出现了一个马加爵事件,但由于仅仅是一个孤立,更多的是对其本身的关注,并没有推广到对所谓的“穷二代”甚至“穷N代”的教育问题。然而在我看来,教育工作者们更应该关注的反而是这些人。

不知道是我的经历特殊还是其他原因,至少在我上学的那个年级,那些成天在网吧包宿打游戏最终导致“大红灯笼高高挂”的,基本上都是贫困生,而且绝对不是那种伪造的。其中我寝室里就有那么一位,来自河南(客观情况,没有特殊含义)农村,平时吃的都是最便宜的白菜豆腐,据说家里还有一个弟弟和一个妹妹,还指望他毕业之后能供他们读书。然而就是这样一个家庭条件的,最终却因为这个原因导致需要延期毕业。我班还有几个类似的同学,基本上也都属于贫困生,那种中产阶级出身的反而不存在这种情况。

尽管我们已经摆脱了那种“越穷越光荣”的思维模式了,但在大多数人心目中,那些从穷山沟里出来的孩子,都是那种吃苦耐劳、勤奋刻苦的典型,不会出现沉迷网络的情况;反而那些蜜罐里泡大的孩子,从小娇生惯养,出现这种情况不足为奇。然而事实很有可能是相反的,有些“毁三观”,但如果通过大数据分析之后的结论真是这样的话,也许我们的教育理念真的要改一下了。

当然,最近也有人提出了“为啥寒门出不了贵子”这样的问题,这也许是个好的开始。既然“寒门出贵子”这样的情况已经越来越少了,对于这种好不容易进入高等学府的“穷N代”们,作为教育工作者,还是多关心一下更好。如果能够早期进行相应的心理疏导,也许马加爵的悲剧就不会上演。

好了,不提这么沉重的话题了。

每年毕业季到来的时候,是毕业生忙碌的时候,同时也是各大用人单位忙碌的时候。对于如何挑选毕业生,最传统的方法应该就是看成绩,然后就是所谓的综合素质。然而,对于综合素质方面,往往凭借的就是面试官的感觉;相比之下,作为实实在在的存在,成绩往往是一个很重要的标准。然而,成绩真的那么重要吗?

当然,自己没有做面试官的权限,这里也只能自己YY一下:如果我是面试官,我会选择什么样的毕业生。这里做几个限定:首先,做的是校园招聘,所有参加面试的都是来自同一所高校;其次,招聘的职位是软件开发,即传说中的“码农”,主要原因是其他领域的我也不了解;同时,由于职位原因,所有参加面试的都是理工科出身。

在这个前提下,我会给出这么几个选择方法:

首先,正常情况下,不要女生。也许这句话会引起女权主义者的口诛笔伐,不过这里声明一下,我的理由跟你们想的不一样。这里绝对没有诸如产假这样的原因,最主要的原因是,作为软件开发人员,需要很强的逻辑思维能力以及理性的思维模式,而在这方面,女生普遍是不擅长的。当然,并不是说女生不能从事这类工作,如果天生是个女汉子,天生喜欢用男性的思维模式考虑问题,这就属于非正常情况。此外,即使这样,也不是说女生不能进入IT公司,因为除了开发工作,还会有类似需求、测试,甚至管理工作,这些都是男女平等的;对于单纯的开发工作,还是让女人走开为好。

其次,正常情况下,不要研究生。这里不是给公司节省成本,完全是因为,在这个领域,研究生真的没有本科生好用。自己也带过几个刚毕业的小孩儿,一般思维活跃的、有创造性的都是本科生;而研究生,效果就没有那么好了;同时在我所在的部门,所有的技术骨干(厚着脸皮把自己也算在内),他们的学历也都是本科。

最重要的一点,那种成天“不是在上自习,就是在上自习的路上”的所谓学霸级人物,坚决不要。其实前两点也可以包含在这一点之中:由于世界性的“男孩危机”,导致即便是理工科院系,前几名的往往也都是女生,而且学霸中多数都是女生;而在研究生方面,至少在传统认识里,研究生中学霸的比例更高(当然,还有连学霸都不如的,这句话是不是有点儿“学历歧视”呀)。或许,第三点是本质,前两点是典型表现吧。

自己最倾向于招聘的条件是:成绩中等,各科成绩从60分到90分(如果90分的都是类似外语、马哲这样的科目,也不予考虑)各分数段都包含;平时不怎么学习,喜欢研究课外的知识;有自己独特的见解,不迷信权威。当然,之所以制定这样的标准,是因为本人当年就是这样的。

软件开发,这个偏技术的职位,在传统理念上来看,可能是成绩更好的人会更适合。然而事实很可能是,即使是这种岗位,学霸们也是不适合的。

某有关部门做过一个调查,在这些年各省的高考状元中,在毕业后各领域中做出成绩的人数几乎为零,即使是在学术研究领域。还有曾经中国科技大学的那个神童班,最终做出成绩的只有一个,而且是当时最不出奇的一位;而当时最出名的宁铂,最终皈依了佛门。

没准,经过大数据的分析,会发现,这个社会中最不需要的恰恰是学霸,尤其是有中国特色的学霸,这个最适应目前我们的教育制度的类型。也许,西方的学霸们还可以在实验室中实现自己的价值,而中国特色的学霸们,可能真的只适合呆在考场。

如果结论真的是这样的话,这个结论不仅能够帮助用人单位选取毕业生,还能够修正教育理念,可谓功德无量。

当然,以上仅仅是本人自己的看法,没有任何依据,只是感觉如果通过大数据进行分析,得到的很有可能就是类似的结论而已。而之所以写了那么大一个篇幅,主要目的就是要说明,通过大数据获得的结论很有可能跟传统理念的相反。而这恰恰就是大数据的作用,毕竟传统观念并不都是真理。虽然不能说大数据分析的结论就是绝对真理,但它至少提供了一个方向,指引这人们向正确的道路上偏移,这就足够了。

1.3 为啥要使用大数据

经过上面的描述,可以了解到,所谓的“大数据”,并不是在于它的数据量有多么大,而是通过对相对全量的、繁杂的数据进行分析,找出相关的规律,从而实现对未来的预测,或者用来改善原先的方案。这就是我们使用大数据的原因。

还是回到上面那个“伪基站”的例子吧,只要得到了全部的数据——包括某个区域内、某个时间段内所有的手机信息,就可以分析出,在哪个区域、哪个时间段,有人安装了“伪基站”,由此,我们就可以预计出,近期在哪个区域使用这种“伪基站”的可能性较大,从而更有针对性的进行执法;或者可以通过这些信息找到某规律,比如哪些指标出现异常的情况说明该区域使用了“伪基站”,以后再出现这种情况就可以在第一时间采取行动。

尽管通过大数据得到的结论并不是百分之百准确的,但它至少指明了一个大方向,这总比像没头苍蝇一样满城市里乱找要好得多。更关键的是,如果能够利用大数据的思维完成这套系统,使其预测的成功率达到一个很高的水平,并且能够较短时间内得到相应的结论,骗子们被逮到的可能性变得很高,没准他们就不会再选择这种“高危行业”了。可以说,若能做出这样的系统,对于黎民苍生、江山社稷,都是一件功德无量的事情。当然,骗子们会恨死你哒。

banner
看过还想看
可能还想看
热点推荐

永洪BI
更敏捷、更快速、更强大

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.1
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限