编辑: 颜大大i2 2019-07-03
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.

edu.cn 厦门大学计算机科学系 2016年版 林子雨 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页:http://www.cs.xmu.edu.cn/linziyu

第四章 分布式数据库HBase (PPT版本号:2016年3月10日版本) 《大数据技术原理与应用》 http://dblab.xmu.edu.cn/post/bigdata 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 提纲 ? 4.1 概述 ? 4.2 HBase访问接口 ? 4.3 HBase数据模型 ? 4.4 HBase的实现原理 ? 4.5 HBase运行机制 ? 4.6 HBase应用方案 ? 4.7 HBase编程实践 欢迎访问《大数据技术原理与应用》教材官方网站: http://dblab.xmu.edu.cn/post/bigdata 本PPT是如下教材的配套讲义: 21世纪高等教育计算机规划教材 《大数据技术原理与应用 ――概念、存储、处理、分析与应用》 (2015年8月第1版) 厦门大学 林子雨 编著,人民邮电出版社 ISBN:978-7-115-39287-9 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1 概述 ? 4.1.1 从BigTable说起 ? 4.1.2 HBase简介 ? 4.1.3 HBase与传统关系数据库的对比分析 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1.1从BigTable说起 BigTable是一个分布式存储系统 BigTable起初用于解决典型的互联网搜索问题 ?建立互联网索引

1 爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTable里2MapReduce计算作业运行在整张表上,生成索引,为网络搜索应用做准备 ?搜索互联网

3 用户发起网络搜索请求

4 网络搜索应用查询建立好的索引,从BigTable得到网页

5 搜索结果提交给用户 网页在BigTable中的存储样例 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1.1从BigTable说起 ?BigTable是一个分布式存储系统 ?利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据 ?使用谷歌分布式文件系统GFS作为底层数据存储 ?采用Chubby提供协同服务管理 ?可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、 高性能和高可用性等特点 ?谷歌的许多项目都存储在BigTable中,包括搜索、地图、财经、打印、 社交网站Orkut、视频共享网站YouTube和博客网站Blogger等 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1.2HBase简介 HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的 开源实现,主要用来存储非结构化和半结构化的松散数据.HBase的目标是处理非常 庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和 数百万列元素组成的数据表 图4-1 Hadoop生态系统中HBase与其他部分的关系 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1.2HBase简介 表4-1 HBase和BigTable的底层技术对应关系 BigTable HBase 文件存储系统 GFS HDFS 海量数据处理 MapReduce Hadoop MapReduce 协同服务管理 Chubby Zookeeper 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1.2HBase简介 关系数据库已经流行很多年,并且Hadoop已经有了HDFS和MapReduce, 为什么需要HBase? ?Hadoop可以很好地解决大规模数据的离线批量处理问题,但是, 受限于Hadoop MapReduce编程框架的高延迟数据处理机制,使得Hadoop无法满足大规模数据实时处理应用的需求 ?HDFS面向批量访问模式,不是随机访问模式 ?传统的通用关系型数据库无法应对在数据规模剧增时导致的系统 扩展性和性能问题(分库分表也不能很好解决) ?传统关系数据库在数据结构变化时一般需要停机维护;

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题