博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
程序员必备大数据技能之分布式云平台Hadoop
阅读量:3923 次
发布时间:2019-05-23

本文共 1524 字,大约阅读时间需要 5 分钟。

一、Hadoop创始人介绍

Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目,目前在Cloudera 公司从事架构工作。

二、Hadoop简介

Hadoop名字来源于Doug Cutting儿子的玩具大象。

2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,一个微缩版:Nutch

Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目。

三、Hadoop简介:http://hadoop.apache.org

分布式存储系统HDFS (Hadoop Distributed File System )POSIX

☆分布式存储系统

☆ 提供了 高可靠性、高扩展性和高吞吐率的数据存储服务

分布式计算框架MapReduce

☆分布式计算框架(计算向数据移动)

☆具有 易于编程、高容错性和高扩展性等优点。

分布式资源管理框架YARN(Yet Another Resource Management)

☆负责集群资源的管理和调度

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

四、Hadoop架构模型

*文件元数据MetaData,文件数据

·元数据

·数据本身

*(主)NameNode节点保存文件元数据:单节点 posix

*(从)DataNode节点保存文件Block数据:多节点

*DataNode与NameNode保持心跳,提交Block列表

*HdfsClient与NameNode交互元数据信息

*HdfsClient与DataNode交互文件Block数据

五、Hadoop解决哪些问题?

海量数据需要及时分析和处理

海量数据需要深入分析和挖掘

数据需要长期保存

海量数据存储的问题:

磁盘IO称为一种瓶颈,而非CPU资源

网络带宽是一种稀缺资源

硬件故障成为影响稳定的一大因素

六、Hadoop 相关技术

(1)Hbase

Nosql数据库,Key-Value存储

最大化利用内存

(2)HDFS

hadoop distribute file system(分布式文件系统)

最大化利用磁盘

(3)MapReduce

编程模型,主要用来做数据分析

最大化利用CPU

七、Hadoop的优点

Hadoop的四大特性(优点)

扩容能力(Scalable):Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计个节点中。

成本低(Economical):Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。

高效率(Efficient):通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。

可靠性(Rellable):能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

Freestyle

通过真实企业项目,掌握 JAVA 高并发、负载均衡、NoSQL、服务器集群、性能优化、数据库集群等架构师技能,实现年薪翻番。

需要视频资料版本,私信小编!!!免费领取全套Hadoop资料!!!

 

转载地址:http://qekgn.baihongyu.com/

你可能感兴趣的文章
poj 1141 Brackets Sequence(区间DP,求最小,输出路径,较难)
查看>>
poj 3661 Running(dp,设计状态,)
查看>>
uva 1351 - String Compression(区间DP,好题,较难)
查看>>
判断一个串是否是由重复子串组成
查看>>
No Girlfriend(简单题)
查看>>
[F] Teacher's Problem(处理大数时,优化很重要)
查看>>
[J] Dumb Typo(题目很简单,比赛错在不该自己计算,应该用电脑跑一遍的)
查看>>
[1545] New Year 2014(数位DP,现放标程,待看)
查看>>
CF 149D Coloring Brackets(区间DP,好题,给配对的括号上色,求上色方案数,限制条件多,dp四维)
查看>>
Light OJ 1422 - Halloween Costumes (区间DP)
查看>>
poj 2559 Largest Rectangle in a Histogram(DP二维超内存,用一维或者用结构体)
查看>>
Ningbo [1217] Dinner(简单题,但是注意输出,pe3遍)
查看>>
Ningbo [1218] You are my brother(注意数组的大小)
查看>>
Ningbo [1219] Time(将数字转换成时钟那样的数字)
查看>>
Ningbo [1220] SPY(题目有点难懂,读懂题目题很简单)
查看>>
hdu 2476 String painter(区间DP,较难)
查看>>
sdut 1309 不老的传说问题(区间DP,难,值得好好看)
查看>>
uva 10688 - The Poor Giant(区间DP,较难,题目难懂,状态转移难。。。)
查看>>
poj 1738 An old Stone Game(此题数小则可用区间DP,数较大用一维数组或者GarsiaWachs算法),待续
查看>>
poj 1823 Hotel(线段树,整段更新)
查看>>