找回密码
 立即注册
查看: 35|回复: 0

数据词典:Hadoop

[复制链接]

656

主题

70

回帖

2291

积分

管理员

积分
2291
发表于 2025-11-7 13:27:01 | 显示全部楼层 |阅读模式
HadoopApache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。Hadoop的核心是分布式文件系统(Hadoop Distributed File SystemHDFS)和MapReduceHDFS是针对谷歌文件系统(Google File SystemGFS)的开源实现,是面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储,其冗余数据存储的方式很好地保证了数据的安全性。MapReduce是针对谷歌MapReduce的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce来整合分布式文件系统上的数据,可保证分析和处理数据的高效性。借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于廉价计算机集群上,完成海量数据的存储与计算。
Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等都支持Hadoop
Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。
1.高可靠性。采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务。
2.高效性。作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够高效地处理PB级数据。
3.高可扩展性。Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上。
4.高容错性。采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。
5.成本低。Hadoop采用廉价的计算机集群,成本比较低,普通用户也很容易用自己的PC搭建Hadoop运行环境。
6.运行在Linux平台上。Hadoop是基于Java语言开发的,可以较好地运行在Linux平台上。
7.支持多种编程语言。Hadoop上的应用程序也可以使用其他语言编写,如C++。
Hadoop凭借其突出的优势,已经在各个领域得到了广泛的应用,而互联网领域是其应用的主阵地。
2007年,雅虎在Sunnyvale总部建立了M45——一个包含了4 000个处理器和1.5 PB容量的Hadoop集群系统。此后,包括卡耐基梅隆大学、加州大学伯克利分校、康奈尔大学和马萨诸塞大学阿默斯特分校、斯坦福大学、华盛顿大学、密歇根大学、普渡大学等12所大学加入该集群系统的研究,推动了开放平台下的开放源码发布。目前,雅虎拥有全球最大的Hadoop集群,有大约25 000个节点,主要用于支持广告系统与网页搜索。
Facebook作为全球知名的社交网站,拥有超过3亿的活跃用户,其中,约有3 000万用户至少每天更新一次自己的状态;用户每月总共上传10亿余张照片、1 000万个视频,每周共享10亿条内容,包括日志、链接、新闻、微博等。因此,Facebook需要存储和处理的数据量同样是非常巨大的,每天新增加4 TB压缩后的数据,扫描135 TB大小的数据,在集群上执行Hive任务超过7 500次,每小时需要进行8万次计算。很显然,对于Facebook而言,Hadoop是非常理想的选择,Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面。
国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等,其中,淘宝的Hadoop集群比较大。据悉,淘宝Hadoop集群拥有2 860个节点,清一色基于英特尔处理器的X86服务器,其总存储容量达到50 PB,实际使用容量超过40PB,日均作业数高达15万,服务于阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle、MySQL)备份、系统日志以及爬虫数据,每天在Hadoop集群运行各种MapReduce任务,如数据魔方、量子统计、推荐系统、排行榜等。
作为全球最大的中文搜索引擎公司,百度对海量数据的存储和处理要求是非常高的。因此,百度选择了Hadoop,主要用于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。百度目前拥有3个Hadoop集群,计算机节点数量在700个左右,并且规模还在不断增加中,每天运行的MapReduce任务在3 000个左右,处理数据约120 TB/天。
华为是Hadoop的使用者,也是Hadoop技术的重要推动者。由雅虎成立的Hadoop公司Hortonworks曾经发布一份报告,用来说明各个公司对Hadoop发展的贡献。其中,华为公司在Hadoop重要贡献公司名单内,排在谷歌和思科公司的前面,说明华为公司也在积极参与开源社区贡献。
【出处】林子雨.大数据技术原理与应用(第3版).人民邮电出版社,20211.

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2025-11-18 06:46 , Processed in 0.094999 second(s), 20 queries .

版权所有: 全数联人才测评(北京)中心

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能专员认证中心

快速回复 返回顶部 返回列表