近两年,很多企业都开始关注数据价值,这和大数据的兴起不无关系。那么,何为大数据?大数据到底有多大?一组数据可以说明。
2010年,我国新存储的数据为250PB,2012年则达到364EB,约为日本的60%,北美的7%。2011年,全球数据规模为1.8ZB,到2020年,全球数据将达到40ZB,如果把它们全部存入蓝光光盘,这些光盘和424艘尼米兹号航母重量相当。大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。信息数据的单位由TB级发展到PB、EB、ZB级别。
综合来看,大数据是各行各业的信息爆炸引发的信息变革,这些行业包括互联网、移动互联网、金融、交通、电信、车联网、物联网等。由社交网站、搜索引擎以及电商组成的互联网行业存在着大量数据,如果对这些数据进行价值挖掘,将让整个行业获得更好的发展。同样,银行、股市、保险以及负责安全监控的交通行业,包含大量通话和短信的电信行业……如果对这些行业的数据合理利用,必将带来非常可观的社会效益和经济价值。
但实际上,要想真正获得大数据价值,挑战重重。一方面,数据量大、存储难、查询慢、数据安全无法保证等问题,让大数据无法有效利用;另一方面,没有一套完整的解决方案或者可参考的优秀案例,能够更好地挖掘数据的潜在价值,让数据更好地为我们服务。
所以,大数据带来了一大批专注于数据挖掘与分析解决方案提供商的崛起,萨纳斯就是这样的企业之一。
最近,萨纳斯又有了新动作,主推SDP(Sarnath Data Platform )大数据基础平台。据了解,SDP是通过Apache Hadoop实践经验,基于开源社区进行增强的企业级大数据存储、管理、查询及分析一体化平台,提供系统化专业化大数据行业解决方案,是为客户量身定制的专属的数据管理分析架构。
SDP框架图
那么,问题来啦。萨纳斯的SDP大数据基础平台为何要基于Hadoop开源技术?
1、为什么是Hadoop?
过去,能提供数据处理的软件、硬件,或者能提供技术和解决方案的公司,主要集中在SAP、IBM一类的公司。但从咨询到实施,一整套下来,一般企业很难承受得起。最重要的是,也无法满足海量数据存储与计算要求。所以,Hadoop技术兴起。
由于Hadoop最擅长高效处理海量规模的数据,并且是一个开源平台,所以受很多开发者热捧。
如今,提起大数据,我们很自然地想起Hadoop。Hadoop包括并行计算模型MapReduce、分布式文件系统HDFS,以及任务调度YARN,同时与Hadoop相关组件也很丰富,包括Hbase、ZooKeeper、Pig、Flume、Hive、Mahout等,这些项目使得Hadoop成为一个非常大的生态系统。
但是开源技术有一个缺点,就是应用的不够稳定,功能不够细化,所以衍生了Hadoop以及相关业务的公司。此种背景下,萨纳斯SDP顺势而生。