作者: 大数据观察来源: 大数据观察时间:2017-07-18 18:43:420
1.大数据研究的主要目标
大数据研究的主要目标是,以有效的信息技术手段和计算方法,获取、处理和分析各种应用行业的大数据,发现和提取数据的深度价值,为行业提供高附加值的应用和服务。因此,大数据研究的核心目标是价值发现,而其技术手段是信息技术和计算方法,其效益目标是为行业提供高附加值的应用和服务。
2.大数据研究的基本特点
大数据研究具有以下几方面的主要特点:
1)大数据处理具有很强的行业应用需求特性,因此大数据技术研究必须紧扣行业应用需求。
2)大数据规模极大,超过任何传统数据库系统的处理能力。
3)大数据处理技术综合性强,任何单一层面的计算技术都难以提供理想的解决方案,需要采用综合性的软硬件技术才能有效处理。
4)大数据处理时,大多数传统算法都面临失效,需要重写。
3.大数据研究的基本原则
大数据研究的基本原则是:
1)应用需求为导向:由于大数据问题来自行业应用,因此大数据的研究需要以行业应用问题和需求为导向,从行业实际的应用需求和存在的技术难题入手,研究解决有效的处理技术和解决方案。
2)领域交叉为桥梁:由于大数据技术有典型的行业应用特征,因此大数据技术研究和应用开发需要由计算技术人员、数据分析师、具备专业知识的领域专家相互配合和协同,促进应用行业、IT产业与计算技术研究机构的交叉融合,来提供良好的大数据解决方法。
3)技术综合为支撑:与传统的单一层面的计算技术研究和应用不同,大数据处理是几乎整个计算技术和信息技术的融合,只有采用技术交叉融合的方法才能提供较为完善的大数据处理方法。
4.大数据研究的基本途径
大数据处理有以下三个基本的解决途径:
1)寻找新算法降低计算复杂度。大数据给很多传统的机器学习和数据挖掘计算方法和算法带来挑战。在数据集较小时,很多在O(n)、 O(nlogn)、O(n2)或O(n3)等线性或多项式复杂度的机器学习和数据挖掘算法都可以有效工作,但当数据规模增长到PB级尺度时,这些现有的串行化算法将花费难以接受的时间开销,使得算法失效。因此,需要寻找新的复杂度更低的算法。
2)寻找和采用降低数据尺度的算法。在保证结果精度的前提下,用数据抽样或者数据尺度无关的近似算法来完成大数据的处理。
3)分而治之的并行化处理。除上述两种方法外,目前为止,大数据处理最为有效和最重要的方法还是采用大数据并行化算法,在一个大规模的分布式数据存储和并行计算平台上完成大数据并行化处理。
永洪科技
致力于打造全球领先的数据技术厂商