hadoop扫盲-创新互联
1 hadoop 大数据平台架构和实践
创新互联公司是专业的环江网站建设公司,环江接单;提供成都网站制作、网站建设,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行环江网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!掌握大数据存储与处理技术的原理
掌握hadoop开发
2 课程预报知识
linux 常用命令
java编程基础
3 hadoop前世今生
大数据到来 PB 级别的数据。
mapreduce、GFS
并行,节点同步,开发了技术论文,没开放源代码。
hadoop ***小象。
4 hadoop 的功能和优势
开源 分布式存取 + 分布式计算平台。
HDFS:分布式文件系统,
任务调度。
高扩展、低成本、成熟的生态圈。
hadoop 人才需求,开发人才、运维
5 生态系统版本
HDFS MAPreduce hive
sql -> hive -> hadoop
hbase 非关系型数据库
zookeeper 动物管理员
版本选择,2.6版本 1.2 版本 稳定版
6 hadoop的安装
1 linux 环境
2 安装jdk
3 配置hadoop 4 个配置文件
可以租用云主机。阿里云不错的选择哦。
7 hadoop的核心文件
HDFS 体系结构
读取元数据 dateNode 是 工作节点
数据管理策略:三份存、64M数据库,心跳检测、定期汇报状态、二级namenode、定期同步到,就是各种备份,自动同步呗。
读写流程:什么程序都有可能。流水线复制。更新源数据。
特点:数据冗余、硬件容错。流式的数据访问、无法修改,直接删除后添加。存储大文件。批量读写,吞吐量大,一次写入,多次读写,交互性能差
命令行操作:类似shell 编程。
8 map reduce 分大任务到小任务、合并结果在一起。
100GB的网站访问日志文件,找错访问次数最多的IP
交换很重要、
运行流程:
基本概念:job task one job to more task
jobtracker map任务 和 reduce任务。
jobtracker 1 作业调度 2 分配任务、监控任务执行进度
监控tasktracker的状态
执行任务、汇报任务状态。
输入数据分片、map任务、中间结果、reduce任务、输出结果。
HDFS表中。
jobtracker 任务、执行过程。
容错机制、重复执行、先重试4次,默认放弃,推测执行。map端完成后,tasktracker执行。
9 应用案例:
wordcount 经典记录:
计算文件中出现每个单词的频数、
map过程 分
reduce过程 合
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
网站栏目:hadoop扫盲-创新互联
分享链接:http://scyanting.com/article/cdpjsi.html