Hadoop的入门基础有哪些

本篇文章给大家分享的是有关Hadoop的入门基础有哪些,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

成都创新互联专注于漳州网站建设服务及定制,我们拥有丰富的企业做网站经验。 热诚为您提供漳州营销型网站建设,漳州网站制作、漳州网页设计、漳州网站官网定制、小程序设计服务,打造漳州网络公司原创品牌,更为您提供漳州网站排名全网营销落地服务。

1、Hadoop概述

Hadoop是 Apache旗下的一个用 Java语言实现开源软件框架,它还是一个开发和运行处理大规模数据的软件平台。Hadoop允许使用简单的编程模型,在大量计算机集群上,对大型数据集进行分布式处理。

狭义上说,Hadoop指 Apache这款开源框架,它的核心组件有:HDFS(分布式文件系统):解决海量数据存储 ;YARN(作业调度和集群资源管理的框架):解决资源任务调度;MAPREDUCE(分布式运算编程框架):解决海量数据计算。

广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。当下的 Hadoop已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目越来越多,其中不乏一些非 Apache主管的项目,这些项目对 HADOOP是很好的补充或者更高层的抽象。比如,HDFS: 分 布 式 文 件 系 统;MAPREDUCE:分布式运算程序开发框架;HIVE:基于 HADOOP的分布式数据仓库,提供基于 SQL的查询数据操作;HBASE:基于Hadoop的分布式海量数据库;ZOOKEEPER:分布式协调服务基础组件;Mahout:基于 mapreduce/spark/flink等分布式运算框架的机器学习算法库;OOZIE:工作流调度框架;Sqoop:数据导入导出工具;FLUME:日志数据采集框架;IMPALA:基于 hive的实时 sql查询分析。

2、Hadoop的发展历程

Hadoop是 Apache Lucene创始人 Doug Cutting创建的。最早起源于 Nutch, 它是 Lucene的子项目。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。

2003年 Google发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。

2004年 Google发表论文向全世界介绍了谷歌版的MapReduce系统。 同时期,Nutch的开发人员完成了相应的开源实现 HDFS和 MAPREDUCE,并从Nutch中剥离成为独立项目 HADOOP,到 2008年 1月,HADOOP成为 Apache顶级项目,迎来了它的快速发展期。

2006年 Google发表了论文是关于 BigTable的,这促使了后来的 Hbase的发展。 因此,Hadoop及其生态圈的发展离不开 Google的贡献。

3、Hadoop的特性

(1)扩容能力:Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。

(2)成本低:Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。

(3)高效率:通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。

(4)可靠性:能自动维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。所以 Hadoop的按位存储和处理数据的能力值得人们信赖。

4、Hadoop的应用

Hadoop最受青睐的行业是互联网领域,可以说互联网公司是 hadoop的主要使用力量。国外来说,Yahoo、Facebook、IBM等公司都大量使用 hadoop集群来支撑业务。比如:Yahoo的 Hadoop应用在支持广告系统、用户行为分析、支持 Web搜索等。 Facebook主要使用 Hadoop存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。

国内来说,BAT领头的互联网公司是当仁不让的 Hadoop使用者、维护者。比如 Ali云梯(14年国内最大 Hadoop集群)、百度的日志分析平台、推荐引擎系统等。国内其他非互联网领域也有不少 hadoop的应用,比如:金融行业的个人征信分析,证券行业的投资模型分析,还有交通行业的车辆、路况监控分析和电信行业的用户上网行为分析 。

以上就是Hadoop的入门基础有哪些,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注创新互联行业资讯频道。


文章标题:Hadoop的入门基础有哪些
网页路径:http://scyanting.com/article/iphcsd.html