大数据,大概是爆红速度仅次于云计算的科技新名词,过去一年来,云计算虽然还是很热门的话题,但更热门的是大数据,情况就像几年前厂商不约而同在谈云计算一样。
大数据有3种特性:Volume、Velocity、Variety,Volume指的是数据量庞大,而到底数据量要多大才算呢?这其实没有一定的界限,不过有许多企业已经面临单日数据量以数十、数百TB的速度增加,而总数据量也达到了PB(Petabyte)等级,这样的数据量已让传统的数据库难以处理;Velocity是指数据增加的速度越来越快,诸如移动化、社交网络的风行,使得数据增加的速度比传统的企业应用程式来得快很多,一旦数据增生速度越快,数据处理、分析的速度也就得跟上;而Variety则是指数据的多样性,我们现在上网不是只看看资讯,同时我们不断在产出数据:上传照片、上传视频、发微博,另一方面,IT深入生活中的各个层面,各式各样的监控器、感应器也不停地产出机器资讯,数据的型式已不像过去那么单纯了。
这3个数据特性,已经是现在式,而不是未来式。然而该如何解决日渐紧迫的大数据处理问题呢?像Facebook、Twitter这样面临数据量大爆炸的网路公司,开始用Hadoop、NoSQL等新兴技术来解决问题。
Hadoop是分散式处理技术,它立基于分布式架构,因此可以使用大量便宜的服务器,打造巨大的处理能力,并且可由水平扩充方式来加大处理能力,以应付更大的数据处理需求。
至于传统数据分析厂商,也纷纷将数据分析平台转换为分散式处理架构,提供水平扩充能力,或是增加处理速度更快的数据库技术,来应付大数据的3种特性。这样的发展也有助于企业因应未来的数据处理挑战,对于已经采用数据仓储的用户,例如银行业,就能顺利移转。毕竟,Hadoop仍是一个很新的技术,其中的技术门槛亦较高。
大数据不会是一个空谈的话题,在技术上已经有诸多变革在发生了。不过,大数据的挑战不完全是技术层面的话题,更大的挑战是在业务层面,甚至是管理面的问题。SaaS软件和云主机资源综合云服务博云网云计算。
[此贴子已经被作者于2012/10/15 16:47:36编辑过]
|