如何一步步完成CDH5的安装与配置全流程?

Cloudera Distribution Including Apache Hadoop 5 (CDH5) 作为曾经业界广泛使用的企业级Hadoop发行版,提供了稳定、可靠且易于管理的大数据平台,其核心在于通过Cloudera Manager这一强大的管理工具,极大地简化了Hadoop生态组件的安装、配置、监控和运维过程,本文将系统性地介绍CDH5的安装与配置流程,旨在为读者提供一份清晰、详尽的实践指南。

如何一步步完成CDH5的安装与配置全流程?

环境准备与系统配置

在开始安装之前,充分的前期准备是确保集群稳定运行的关键,此阶段的工作主要涉及硬件、操作系统、网络和基础软件的配置。

系统与硬件要求
CDH5对操作系统有明确要求,通常推荐使用CentOS 6.x或7.x的稳定版本,所有集群节点(包括主节点和从节点)的硬件配置应根据业务负载进行规划,但最低建议如下:

  • 内存: 主节点(NameNode, ResourceManager等)建议至少16GB,从节点(DataNode, NodeManager等)建议至少8GB。
  • CPU: 4核或以上。
  • 磁盘: 主节点需要足够的磁盘空间存储元数据,从节点则需要大容量数据盘,建议使用JBOD(Just a Bunch of Disks)模式而非RAID,以便HDFS能独立管理每块磁盘。
  • 网络: 千兆以太网是基本要求,节点间网络延迟需尽可能低。

网络与主机名配置
集群内所有节点必须能够通过主机名互相通信,并且主机名解析稳定,修改每台服务器的/etc/hosts文件,添加所有集群节点的IP地址和主机名映射,示例如下:

168.1.10 cdh-master
192.168.1.11 cdh-worker1
192.168.1.12 cdh-worker2

确保使用hostname命令设置的主机名与/etc/hosts中的配置一致,为了简化安装,建议在安装期间关闭防火墙和SELinux,但在生产环境中应配置相应的防火墙规则。

SSH免密登录
Cloudera Manager Server需要通过SSH协议连接到所有Agent节点进行部署和管理,需要配置从Manager节点到所有其他节点的SSH免密登录,在Manager节点上执行:

# 生成密钥对
ssh-keygen -t rsa
# 将公钥分发到所有节点(包括自身)
ssh-copy-id cloudera-scm@cdh-master
ssh-copy-id cloudera-scm@cdh-worker1
ssh-copy-id cloudera-scm@cdh-worker2

这里建议创建一个统一的用户(如cloudera-scm)用于集群管理。

时钟同步与Java环境
Hadoop集群对时间同步极其敏感,节点间时钟偏差过大会导致集群工作异常,必须确保所有节点都安装并启动了NTP服务。

yum install -y ntp
service ntpd start
chkconfig ntpd on

CDH5需要Java环境,通常推荐使用Oracle JDK 1.7或1.8,下载JDK安装包并配置好JAVA_HOME环境变量,确保所有节点版本一致。

Cloudera Manager与CDH5的安装

环境准备就绪后,可以开始核心的安装工作,整个流程以Cloudera Manager为中心展开。

如何一步步完成CDH5的安装与配置全流程?

安装Cloudera Manager Server
选择一台性能较好的服务器作为Manager节点,配置Cloudera的YUM仓库源。

wget https://archive.cloudera.com/cm5/redhat/7/x86_64/cm/cloudera-manager.repo -O /etc/yum.repos.d/cloudera-manager.repo

使用YUM命令安装Server软件包。

yum install -y cloudera-manager-server-db
yum install -y cloudera-manager-server

安装完成后,需要初始化Server的数据库,如果使用内嵌的PostgreSQL数据库,可直接运行初始化脚本:

/usr/share/cmf/schema/scm_prepare_database.sh postgresql scm scm scm_password

启动Cloudera Manager Server服务:

service cloudera-scm-server start

启动过程需要几分钟,可以通过查看日志/var/log/cloudera-scm-server/cloudera-scm-server.log来跟踪进度。

安装Cloudera Manager Agent
所有节点(包括Manager节点)上执行Agent的安装,同样,先确保YUM仓库源已配置。

yum install -y cloudera-manager-agent

安装后,需要修改Agent的配置文件/etc/cloudera-scm-agent/config.ini,将其中的server_host指向Manager节点的主机名。

server_host=cdh-master

保存后,启动Agent服务:

service cloudera-scm-agent start

通过Web UI进行集群安装
当Server和所有Agent都启动成功后,便可以通过浏览器访问Cloudera Manager的Web界面:http://<cdh-master-host>:7180,默认管理员用户名和密码均为admin
登录后,系统会引导你完成一个安装向导:

如何一步步完成CDH5的安装与配置全流程?

  • 接受许可条款
  • 选择版本:选择“免费版”或“试用版”。
  • 指定集群名称
  • 选择主机:Manager会自动发现所有已注册的Agent节点,勾选需要加入集群的主机。
  • 选择存储库:可以选择使用 parcels 方式从Cloudera官方下载(需要外网),或使用本地已准备好的Parcel包。
  • 安装Parcel:系统会分发、解压并激活CDH5的Parcel包。
  • 检查主机正确性:Manager会自动检查各主机的环境问题,如时钟同步、磁盘空间等,需根据提示修复。
  • 选择服务:根据需求选择要安装的服务,如HDFS、YARN、ZooKeeper、Hive等,可以选择安装一套核心服务或自定义服务组合。
  • 配置服务:为所选服务进行基本配置,如数据库连接信息(Hive、Oozie等)、各种目录路径等。
  • 启动服务:完成配置后,Manager将按照依赖顺序依次启动所有服务。

服务配置与优化

安装完成后,Cloudera Manager提供了强大的配置管理界面,你可以根据集群的硬件资源和业务需求,对各项服务进行精细化调优,以下是一些关键服务的核心配置参数示例:

服务关键参数建议配置/说明
HDFSdfs.replication数据块副本数,生产环境通常设为3,测试环境可设为2。
HDFSNameNode Heap SizeNameNode的堆内存大小,根据元数据量设置,通常建议8GB以上。
YARNNodeManager MemoryNodeManager可用的物理内存总量,通常设为服务器物理内存的70%-80%。
YARNyarn.scheduler.minimum-allocation-mbYARN容器可申请的最小内存。
ZooKeepermaxClientCnxns单个客户端IP地址的最大连接数,默认为60,可根据需要调整。

在Cloudera Manager界面中,进入对应服务的“配置”页面,搜索上述参数即可进行修改,修改后需保存配置并重启相关服务才能生效。

小编总结与注意事项

CDH5的安装配置是一个系统性工程,从前期的环境规划到后期的服务调优,每一步都至关重要,Cloudera Manager极大地降低了部署的复杂性,但深入理解Hadoop各组件的原理和配置项,仍然是运维好一个大数据集群的基础。

特别提醒:CDH5版本已停止官方支持(End of Life, EOL),不再接收安全更新和功能补丁,对于新项目,强烈建议使用Cloudera的最新平台CDP(Cloudera Data Platform),本文档主要面向仍在维护CDH5遗留系统的技术人员。


相关问答FAQs

Q1: 在Cloudera Manager中,为什么我的Agent节点健康状态显示为“不良”或“时钟偏差”?
A1: 这是最常见的两个问题。“不良”状态通常由多种原因引起,但最常见的是时钟同步问题网络/防火墙问题,请务必在所有节点上检查并启动NTP服务,使用ntpq -p命令确认同步状态,确保Manager节点的7180端口和Agent节点的端口(默认9000左右)在防火墙中是开放的,对于“时钟偏差”的明确告警,其根本原因就是节点间系统时间不一致,解决方案就是严格配置NTP服务,保证所有节点时间同步。

Q2: 安装完成后,如何修改HDFS的默认副本数?
A2: 修改HDFS副本数分为两种情况,第一种是修改已存在文件的副本数,可以使用HDFS Shell命令递归地修改某个目录下所有文件的副本数,将/user/hive/warehouse目录下所有文件的副本数改为2:

hdfs dfs -setrep -R 2 /user/hive/warehouse

第二种是修改新创建文件的默认副本数,这需要在Cloudera Manager中进行配置,进入HDFS服务的“配置”页面,搜索dfs.replication参数,将其值修改为你期望的默认副本数(如3),然后保存配置并重启HDFS服务,此后,所有新上传到HDFS的文件都将使用这个新的副本数。

图片来源于AI模型,如侵权请联系管理员。作者:酷小编,如若转载,请注明出处:https://www.kufanyun.com/ask/5834.html

(0)
上一篇2025年10月14日 18:18
下一篇 2025年10月14日 18:24

相关推荐

  • 如何优化服务器配置才能有效应对高并发挑战?

    在当今的互联网时代,用户量激增和数据流量爆炸已成为常态,这使得“高并发”成为衡量一个系统服务能力的关键指标,要构建能够从容应对高并发挑战的服务,精细且合理的“服务器配置”是不可或缺的基石,这并非简单的硬件堆砌,而是一个涉及硬件、软件、系统架构等多层面的综合性工程,硬件层面:构建坚实基础硬件是服务器性能的物理极限……

    2025年10月15日
    030
  • 明明电脑配置很高,为什么开机速度却依然很慢?

    拥有一个高性能的电脑配置,本应意味着流畅无阻的使用体验,然而许多用户却发现,即便配备了顶级的处理器和显卡,开机速度却依然慢如蜗牛,这种“高配低能”的现象着实令人困惑和沮丧,开机速度主要取决于硬件响应速度和系统加载效率,而不仅仅是CPU或GPU的性能,本文将深入剖析导致高配置电脑开机缓慢的几大元凶,并提供系统性的……

    2025年10月13日
    030
  • 回顾红米note1配置,这款千元神机放现在还够用吗?

    在智能手机发展的浪潮中,总有几款产品因其划时代的意义而被铭记,发布于2014年3月的红米Note 1,正是这样一款里程碑式的设备,它不仅巩固了红米品牌在千元机市场的霸主地位,更以其“为发烧而生”的理念,将旗舰级的大屏体验带入了寻常百姓家,深刻地影响了后续数年的手机市场格局,要理解其成功,我们必须深入剖析其核心配……

    2025年10月14日
    020
  • win7系统下如何才能全面快速地查看到电脑的硬件配置详细信息?

    在数字时代,了解个人电脑的硬件配置是一项基本且重要的技能,无论是为了判断电脑能否流畅运行新软件、进行硬件升级,还是在遇到故障时进行排查,清晰地掌握CPU、内存、显卡等核心部件的型号与参数都至关重要,对于依然坚守在Windows 7(Win7)平台的用户而言,好消息是,系统自身就内置了多种强大而便捷的工具,无需安……

    2025年10月15日
    020

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注