banner

探讨:如何处理大数据存储中问题

作者: 大数据观察来源: 大数据观察时间:2017-05-09 15:54:240

大数据在IT行业是与云计算并驾齐驱的另一大热门话题。“大数据”指的是那些数量巨大、难于收集、处理、分析的数据集,这就容易出现存储问题,本文介绍的容易出现的几大问题。

“大数据”通常指的是那些数量巨大、难于收集、处理、分析的数据集,亦指那些在传统基础设施中长期保存的数据。这里的“大”有几层含义,它可以形容组织的大小,而更重要的是,它界定了企业中IT基础设施的规模。业内对大数据应用寄予了无限的期望商业信息积累的越多价值也越大只不过我们需要一个方法把这些价值挖掘出来。

为什么现在要大数据?

与以往相比,我们除了有能力存储更多的数据量之外,还要面对更多的数据类型。这些数据的来源包括网上交易、网络社交活动、自动传感器、移动设备以及科学仪器等等。除了那些固定的数据生产源,各种交易行为还可能加快数据的积累速度。比如说,社交类多媒体数据的爆炸性增长就源于新的网上交易和记录行为。数据永远都在增长之中,但是,只有存储海量数据的能力是不够的,因为这并不能保证我们能够成功地从中搜寻出商业价值。

数据是重要的生产要素

信息时代,数据俨然已成为一种重要的生产要素,如同资本、劳动力和原材料等其他要素一样,而且作为一种普遍需求,它也不再局限于某些特殊行业的应用。各行各业的公司都在收集并利用大量的数据分析结果,尽可能的降低成本,提高产品质量、提高生产效率以及创造新的产品。例如,通过分析直接从产品测试现场收集的数据,能够帮助企业改进设计。此外,一家公司还可以通过深入分析客户行为,对比大量的市场数据,从而超越他的竞争对手。

存储技术必须跟上

随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,就这个例子来说,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。

从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。在这里,我们会讨论哪些与大数据存储基础设施相关的属性,看看它们如何迎接大数据的挑战。

容量问题

这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。基于这样的需求,客户现在越来越青睐Scale-out架构的存储。Scale-out集群结构的特点是每个节点除了具有一定的存储容量之外,内部还具备数据处理能力以及互联设备,与传统存储系统的烟囱式架构完全不同,Scale-out架构可以实现无缝平滑的扩展,避免存储孤岛。

“大数据”应用除了数据规模巨大之外,还意味着拥有庞大的文件数量。因此如何管理文件系统层累积的元数据是一个难题,处理不当的话会影响到系统的扩展能力和性能,而传统的NAS系统就存在这一瓶颈。所幸的是,基于对象的存储架构就不存在这个问题,它可以在一个系统中管理十亿级别的文件数量,而且还不会像传统存储一样遭遇元数据管理的困扰。基于对象的存储系统还具有广域扩展能力,可以在多个不同的地点部署并组成一个跨区域的大型存储基础架构。

延迟问题

“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。举个例子来说,网络成衣销售行业的在线广告推广服务需要实时的对客户的浏览记录进行分析,并准确的进行广告投放。这就要求存储系统在必须能够支持上述特性同时保持较高的响应速度,因为响应延迟的结果是系统会推送“过期”的广告内容给客户。这种场景下,Scale-out架构的存储系统就可以发挥出优势,因为它的每一个节点都具有处理和互联组件,在增加容量的同时处理能力也可以同步增长。而基于对象的存储系统则能够支持并发的数据流,从而进一步提高数据吞吐量。

有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质的可扩展存储系统等等都在蓬勃发展。

并发访问一旦企业认识到大数据分析应用的潜在价值,他们就会将更多的数据集纳入系统进行比较,同时让更多的人分享并使用这些数据。为了创造更多的商业价值,企业往往会综合分析那些来自不同平台下的多种数据对象。包括全局文件系统在内的存储基础设施就能够帮助用户解决数据访问的问题,全局文件系统允许多个主机上的多个用户并发访问文件数据,而这些数据则可能存储在多个地点的多种不同类型的存储设备上。

安全问题

某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。

成本问题

“大”,也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,都能够获得明显的投资回报。此外,自动精简配置、快照和克隆技术的使用也可以提升存储的效率。

很多大数据存储系统都包括归档组件,尤其对那些需要分析历史数据或需要长期保存数据的机构来说,归档设备必不可少。从单位容量存储成本的角度看,磁带仍然是最经济的存储介质,事实上,在许多企业中,使用支持TB级大容量磁带的归档系统仍然是事实上的标准和惯例。

对成本控制影响最大的因素是那些商业化的硬件设备。因此,很多初次进入这一领域的用户以及那些应用规模最大的用户都会定制他们自己的“硬件平台”而不是用现成的商业产品,这一举措可以用来平衡他们在业务扩展过程中的成本控制战略。为了适应这一需求,现在越来越多的存储产品都提供纯软件的形式,可以直接安装在用户已有的、通用的或者现成的硬件设备上。此外,很多存储软件公司还在销售以软件产品为核心的软硬一体化装置,或者与硬件厂商结盟,推出合作型产品。

税收红利,这是业内对于个人网店未缴税的一种观点。关于其征税讨论,几乎每次都会成为关注焦点。

9日晚,两会新闻中心举行的网络访谈上,商务部电子商务司副司长张佩东在回答网友关于个人网店的征税问题时表示:依法纳税是每个公民和企业应尽的义务,税法对传统企业和电子商务企业是统一适用的。相关部门一直在关注这个问题,并在积极研究对策;具体情况,建议向税务主管部门了解。

换言之,尽管已数次讨论的个人网店征税,但尚无具体时间表。

浙江金道律师事务所张延来律师认为,政府主管部门一直都在论证电商征税的课题,已有近十年时间,就目前来看马上开征是不可能的。

税收红利何时终结?

今年两会期间,关于电商征税话题似乎较为“低调”。全国人大代表、浙江省侨联副主席陈乃科提出“加强电子商务环境下的税收管理的建议”;他认为,加快我国电子商务的发展,就必须加快建立宽松的税收政策;零售环节税收规模小、征税成本高,生产制造环节是税源的大头,一般商业零售毛利润也就是10%左右,应抓大放小。

全国人大代表、波司登董事局主席高德康则在《加强电子商务知识产权保护》的议案中表示,当前中国电子商务年交易量的90%是以C2C的形式从事B2C的交易,而波司登多次遭受线上假冒商品损害。

他建议,行政机关应加强电子商务行业监管力度,指定专门的行政机关或成立专门组织统一协调部署工作,以解决电子商务大量交易游离于现有法律之外等现象。

多位业内人士表示,电商征税是未来发展的必然趋势。

在中国电子商务研究中心主任曹磊看来,网购市场已享尽“税收红利”做大,并对实体经济尤其是现有零售业为代表的流通体系造成了巨大冲击;从市场公平竞争的角度而言,应该对电商和实体经济基本上实现一视同仁。

但是,为何被业内视为必然的征税却推进缓慢呢?

“参照国际做法,作为电子商务发展鼻祖的美国,是否对网店全面征税目前也仍在讨论中,目前我国全面征税的时机并不成熟。”昨日,中国电子商务研究中心分析师莫岱青向本报记者表示,电商征税已经讨论了很久,但实际操作起来很难,从条例、办法等上升到立法,将是一个漫长的过程。

根据阿里巴巴去年底提供的数据,目前阿里巴巴零售平台上约有700万户网商,其中小微网商占大多数:淘宝网上,店铺仅店主1人经营的占58%,97%的店铺员工在5人以下;而在天猫上,雇员达3~20人的卖家占81%。

天册律师事务所律师姚小娟认为,(个体)网店的规模与电商纳税之间存在内在联系。对于淘宝上几百万小微职业卖家来说,电商的无税收和无店面成本是他们赖以生存的基础。一旦征税,价格抬高,利润减少,部分卖家将另谋出路。这可能是电商的一次大洗牌,也可能会对刚刚繁荣起来的电商形成致命打击。

C2C个人网店,实际数量正趋于减少。中国电子商务研究中心数据显示,截至2013年12月,实际运营的个人网店数量达1122万家,同比减少17.8%;预计到2014年中国个人网店将下降到918万家。

业内有观点认为,随着B2C巨头的崛起,行业竞争加剧;个人网店也在考虑如何突出差异化优势,不再单纯依靠“税收红利”。当个人网店进入正向循环,“税收红利”将逐渐退出。

征收难点

“讨论收不收税是没有意义的,电商收税是必然的。”电子商务资深从业者、赢动教育CEO崔立标向记者表示,现在需要讨论的是什么时间收、怎么收、缴税主体的确定等问题。

事实上,经过多年发展,C2C平台淘宝网店已经形成固定生态,各种类型的卖家并存,即:一是没有进行工商登记的个人卖家,二是已注册公司的个人网店,三是实体店的网上商铺。后两者与线下的实体公司并无二致,均应依法纳税,也在履行交税义务。但是,第一种即“纯个人网店”,我国一直未出台征税的具体办法。

有两个标志性的事件是:2010年7月1日实施《网络商品交易及有关服务行为管理暂行办法》后,国内的个人网店才开始逐步步入“实名制”时代;2011年,武汉市国税局开出国内首张个人网店税单,即:对淘宝女装网店“我的百分之一”征税430余万元。

自此,对于个体电商的征税问题才正式浮出水面。去年两会期间,全国政协委员、苏宁控股集团董事长张近东建议,我国应该通过《电子商务税收法》,建立电子商务税务登记制度,对在网上进行交易的商家收税;全国人大代表、步步高集团董事长王填也递交多份议案、建议,呼吁规范电子商业缴税,称“否则对实体零售不公平”。

大数据在IT行业是与云计算并驾齐驱的另一大热门话题。“大数据”指的是那些数量巨大、难于收集、处理、分析的数据集,这就容易出现存储问题,本文介绍的容易出现的几大问题。

“大数据”通常指的是那些数量巨大、难于收集、处理、分析的数据集,亦指那些在传统基础设施中长期保存的数据。这里的“大”有几层含义,它可以形容组织的大小,而更重要的是,它界定了企业中IT基础设施的规模。业内对大数据应用寄予了无限的期望商业信息积累的越多价值也越大只不过我们需要一个方法把这些价值挖掘出来。

为什么现在要大数据?

与以往相比,我们除了有能力存储更多的数据量之外,还要面对更多的数据类型。这些数据的来源包括网上交易、网络社交活动、自动传感器、移动设备以及科学仪器等等。除了那些固定的数据生产源,各种交易行为还可能加快数据的积累速度。比如说,社交类多媒体数据的爆炸性增长就源于新的网上交易和记录行为。数据永远都在增长之中,但是,只有存储海量数据的能力是不够的,因为这并不能保证我们能够成功地从中搜寻出商业价值。

数据是重要的生产要素

信息时代,数据俨然已成为一种重要的生产要素,如同资本、劳动力和原材料等其他要素一样,而且作为一种普遍需求,它也不再局限于某些特殊行业的应用。各行各业的公司都在收集并利用大量的数据分析结果,尽可能的降低成本,提高产品质量、提高生产效率以及创造新的产品。例如,通过分析直接从产品测试现场收集的数据,能够帮助企业改进设计。此外,一家公司还可以通过深入分析客户行为,对比大量的市场数据,从而超越他的竞争对手。

存储技术必须跟上

随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,就这个例子来说,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。

从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。在这里,我们会讨论哪些与大数据存储基础设施相关的属性,看看它们如何迎接大数据的挑战。

容量问题

这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。基于这样的需求,客户现在越来越青睐Scale-out架构的存储。Scale-out集群结构的特点是每个节点除了具有一定的存储容量之外,内部还具备数据处理能力以及互联设备,与传统存储系统的烟囱式架构完全不同,Scale-out架构可以实现无缝平滑的扩展,避免存储孤岛。

“大数据”应用除了数据规模巨大之外,还意味着拥有庞大的文件数量。因此如何管理文件系统层累积的元数据是一个难题,处理不当的话会影响到系统的扩展能力和性能,而传统的NAS系统就存在这一瓶颈。所幸的是,基于对象的存储架构就不存在这个问题,它可以在一个系统中管理十亿级别的文件数量,而且还不会像传统存储一样遭遇元数据管理的困扰。基于对象的存储系统还具有广域扩展能力,可以在多个不同的地点部署并组成一个跨区域的大型存储基础架构。

延迟问题

“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。举个例子来说,网络成衣销售行业的在线广告推广服务需要实时的对客户的浏览记录进行分析,并准确的进行广告投放。这就要求存储系统在必须能够支持上述特性同时保持较高的响应速度,因为响应延迟的结果是系统会推送“过期”的广告内容给客户。这种场景下,Scale-out架构的存储系统就可以发挥出优势,因为它的每一个节点都具有处理和互联组件,在增加容量的同时处理能力也可以同步增长。而基于对象的存储系统则能够支持并发的数据流,从而进一步提高数据吞吐量。

有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质的可扩展存储系统等等都在蓬勃发展。

并发访问一旦企业认识到大数据分析应用的潜在价值,他们就会将更多的数据集纳入系统进行比较,同时让更多的人分享并使用这些数据。为了创造更多的商业价值,企业往往会综合分析那些来自不同平台下的多种数据对象。包括全局文件系统在内的存储基础设施就能够帮助用户解决数据访问的问题,全局文件系统允许多个主机上的多个用户并发访问文件数据,而这些数据则可能存储在多个地点的多种不同类型的存储设备上。

安全问题

某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。

成本问题

“大”,也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,都能够获得明显的投资回报。此外,自动精简配置、快照和克隆技术的使用也可以提升存储的效率。

很多大数据存储系统都包括归档组件,尤其对那些需要分析历史数据或需要长期保存数据的机构来说,归档设备必不可少。从单位容量存储成本的角度看,磁带仍然是最经济的存储介质,事实上,在许多企业中,使用支持TB级大容量磁带的归档系统仍然是事实上的标准和惯例。

对成本控制影响最大的因素是那些商业化的硬件设备。因此,很多初次进入这一领域的用户以及那些应用规模最大的用户都会定制他们自己的“硬件平台”而不是用现成的商业产品,这一举措可以用来平衡他们在业务扩展过程中的成本控制战略。为了适应这一需求,现在越来越多的存储产品都提供纯软件的形式,可以直接安装在用户已有的、通用的或者现成的硬件设备上。此外,很多存储软件公司还在销售以软件产品为核心的软硬一体化装置,或者与硬件厂商结盟,推出合作型产品。

多方激辩之后,电商征税话题被推向风口浪尖。

此后几个月内,国家相关部门的频繁举动和表态:去年“两会”结束不久,国家税务总局开始实行《网络发票管理办法》,被视为是为征税做准备;随后,对于如何规范电商市场交易及市场秩序,国家工商总局举行了座谈会。

去年6月4日,商务部新闻发言人姚坚在回应媒体询问时证实,依法纳税是每个公民和企业的义务,税法对传统企业和电子商务企业是统一适用的;商务部正在积极推动《网络零售管理条例》出台,目前仍在前期调研,尚无具体的出台时间表。

9日晚,张佩东也坦言,由于这些个体网店没有工商注册,无实体店经营,经营数据、收支电子化,分布区域广,给 “实体化”、“属地化”的监管部门工作带来巨大挑战,实施税收征管面临重重困难,监管成本高、金额小。

崔立标看来,时间点应该不是问题了,已经成熟;难点在于:第一,技术问题,税率、税基的确定,缴税主体的划分,比如淘宝700万家店铺,不可能一刀切;第二,税收体制问题,电商经营范围是跨区域的,首先是国税和地税怎么分配的问题,其次是卖家注册地和买家购买地如何分配税收的问题。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限