最新消息:

网红IT:初识Hadoop大数据平台

Linux服务器 丸子姐 80浏览

自2013年以来,大数据已经成为IT界炙手可热的名词,在全球范围内引领了一轮新的数据革命浪潮。世界已经正式进入了大数据时代。

所谓大数据,字面意思就是:数据,特点就是大。那么大数据究竟有多大呢?大数据的起始计量单位至少是PB(1,024TB)、EB或ZB。而且其类型繁多,包括了诸如网络日志、视频、图片、地理位置信息等类型。因为数据的规模之大,数据的失真、采集不连续等问题将对整个数据的分析结果不构成影响。

大数据的应用很早就已经存在,但之所以近几年才产生这个概念是因为大数据离不开大规模的计算,云计算的产生让大数据分析成为可能,大数据依托于云计算的计算能力,云计算改变了IT,而大数据则改变了业务。

将到这里,不得不说一下分布式处理技术:分布式处理系统可以将不同地点、具有不同功能、拥有不同数据的多台计算机(compute)用通信网络连接起来,在控制系统(controller)的统一管理下,协调地完成信息处理任务。

大数据分布式处理系统的典型代表是Hadoop(终于要进入主题了)。它包含了一个MapReduce软件框架,这个框架能以一种高效、可靠、可伸缩的方式对大数据进行分布式处理。MapReduce的主要思想就是将要执行的问题拆分成Map(映射)和Reduce(规约),将拆分后的区块分配给不同的计算节点(compute)处理(Map),再将结果进行汇整并输出最终结果(Reduce)。有计算还要有存储,Hadoop包含一个名为HDFS的分布式文件系统,为海量的数据提供了存储。

除此以外,还有如YARN资源管理器、Hive数据仓库、Mahout数据挖掘工具、Sqoop数据传输工具等。

如果想要更多的了解Hadoop,丸子姐推荐何石大神的博客:一篇文看懂Hadoop

转载请注明:森林火 » 网红IT:初识Hadoop大数据平台