如何一步步完成CDH5的安装与配置全流程?

Cloudera Distribution Including Apache Hadoop 5 (CDH5) 作为曾经业界广泛使用的企业级Hadoop发行版,提供了稳定、可靠且易于管理的大数据平台,其核心在于通过Cloudera Manager这一强大的管理工具,极大地简化了Hadoop生态组件的安装、配置、监控和运维过程,本文将系统性地介绍CDH5的安装与配置流程,旨在为读者提供一份清晰、详尽的实践指南。

如何一步步完成CDH5的安装与配置全流程?

环境准备与系统配置

在开始安装之前,充分的前期准备是确保集群稳定运行的关键,此阶段的工作主要涉及硬件、操作系统、网络和基础软件的配置。

系统与硬件要求
CDH5对操作系统有明确要求,通常推荐使用CentOS 6.x或7.x的稳定版本,所有集群节点(包括主节点和从节点)的硬件配置应根据业务负载进行规划,但最低建议如下:

  • 内存: 主节点(NameNode, ResourceManager等)建议至少16GB,从节点(DataNode, NodeManager等)建议至少8GB。
  • CPU: 4核或以上。
  • 磁盘: 主节点需要足够的磁盘空间存储元数据,从节点则需要大容量数据盘,建议使用JBOD(Just a Bunch of Disks)模式而非RAID,以便HDFS能独立管理每块磁盘。
  • 网络: 千兆以太网是基本要求,节点间网络延迟需尽可能低。

网络与主机名配置
集群内所有节点必须能够通过主机名互相通信,并且主机名解析稳定,修改每台服务器的/etc/hosts文件,添加所有集群节点的IP地址和主机名映射,示例如下:

168.1.10 cdh-master
192.168.1.11 cdh-worker1
192.168.1.12 cdh-worker2

确保使用hostname命令设置的主机名与/etc/hosts中的配置一致,为了简化安装,建议在安装期间关闭防火墙和SELinux,但在生产环境中应配置相应的防火墙规则。

SSH免密登录
Cloudera Manager Server需要通过SSH协议连接到所有Agent节点进行部署和管理,需要配置从Manager节点到所有其他节点的SSH免密登录,在Manager节点上执行:

# 生成密钥对
ssh-keygen -t rsa
# 将公钥分发到所有节点(包括自身)
ssh-copy-id cloudera-scm@cdh-master
ssh-copy-id cloudera-scm@cdh-worker1
ssh-copy-id cloudera-scm@cdh-worker2

这里建议创建一个统一的用户(如cloudera-scm)用于集群管理。

时钟同步与Java环境
Hadoop集群对时间同步极其敏感,节点间时钟偏差过大会导致集群工作异常,必须确保所有节点都安装并启动了NTP服务。

yum install -y ntp
service ntpd start
chkconfig ntpd on

CDH5需要Java环境,通常推荐使用Oracle JDK 1.7或1.8,下载JDK安装包并配置好JAVA_HOME环境变量,确保所有节点版本一致。

Cloudera Manager与CDH5的安装

环境准备就绪后,可以开始核心的安装工作,整个流程以Cloudera Manager为中心展开。

如何一步步完成CDH5的安装与配置全流程?

安装Cloudera Manager Server
选择一台性能较好的服务器作为Manager节点,配置Cloudera的YUM仓库源。

wget https://archive.cloudera.com/cm5/redhat/7/x86_64/cm/cloudera-manager.repo -O /etc/yum.repos.d/cloudera-manager.repo

使用YUM命令安装Server软件包。

yum install -y cloudera-manager-server-db
yum install -y cloudera-manager-server

安装完成后,需要初始化Server的数据库,如果使用内嵌的PostgreSQL数据库,可直接运行初始化脚本:

/usr/share/cmf/schema/scm_prepare_database.sh postgresql scm scm scm_password

启动Cloudera Manager Server服务:

service cloudera-scm-server start

启动过程需要几分钟,可以通过查看日志/var/log/cloudera-scm-server/cloudera-scm-server.log来跟踪进度。

安装Cloudera Manager Agent
所有节点(包括Manager节点)上执行Agent的安装,同样,先确保YUM仓库源已配置。

yum install -y cloudera-manager-agent

安装后,需要修改Agent的配置文件/etc/cloudera-scm-agent/config.ini,将其中的server_host指向Manager节点的主机名。

server_host=cdh-master

保存后,启动Agent服务:

service cloudera-scm-agent start

通过Web UI进行集群安装
当Server和所有Agent都启动成功后,便可以通过浏览器访问Cloudera Manager的Web界面:http://<cdh-master-host>:7180,默认管理员用户名和密码均为admin
登录后,系统会引导你完成一个安装向导:

如何一步步完成CDH5的安装与配置全流程?

  • 接受许可条款
  • 选择版本:选择“免费版”或“试用版”。
  • 指定集群名称
  • 选择主机:Manager会自动发现所有已注册的Agent节点,勾选需要加入集群的主机。
  • 选择存储库:可以选择使用 parcels 方式从Cloudera官方下载(需要外网),或使用本地已准备好的Parcel包。
  • 安装Parcel:系统会分发、解压并激活CDH5的Parcel包。
  • 检查主机正确性:Manager会自动检查各主机的环境问题,如时钟同步、磁盘空间等,需根据提示修复。
  • 选择服务:根据需求选择要安装的服务,如HDFS、YARN、ZooKeeper、Hive等,可以选择安装一套核心服务或自定义服务组合。
  • 配置服务:为所选服务进行基本配置,如数据库连接信息(Hive、Oozie等)、各种目录路径等。
  • 启动服务:完成配置后,Manager将按照依赖顺序依次启动所有服务。

服务配置与优化

安装完成后,Cloudera Manager提供了强大的配置管理界面,你可以根据集群的硬件资源和业务需求,对各项服务进行精细化调优,以下是一些关键服务的核心配置参数示例:

服务 关键参数 建议配置/说明
HDFS dfs.replication 数据块副本数,生产环境通常设为3,测试环境可设为2。
HDFS NameNode Heap Size NameNode的堆内存大小,根据元数据量设置,通常建议8GB以上。
YARN NodeManager Memory NodeManager可用的物理内存总量,通常设为服务器物理内存的70%-80%。
YARN yarn.scheduler.minimum-allocation-mb YARN容器可申请的最小内存。
ZooKeeper maxClientCnxns 单个客户端IP地址的最大连接数,默认为60,可根据需要调整。

在Cloudera Manager界面中,进入对应服务的“配置”页面,搜索上述参数即可进行修改,修改后需保存配置并重启相关服务才能生效。

小编总结与注意事项

CDH5的安装配置是一个系统性工程,从前期的环境规划到后期的服务调优,每一步都至关重要,Cloudera Manager极大地降低了部署的复杂性,但深入理解Hadoop各组件的原理和配置项,仍然是运维好一个大数据集群的基础。

特别提醒:CDH5版本已停止官方支持(End of Life, EOL),不再接收安全更新和功能补丁,对于新项目,强烈建议使用Cloudera的最新平台CDP(Cloudera Data Platform),本文档主要面向仍在维护CDH5遗留系统的技术人员。


相关问答FAQs

Q1: 在Cloudera Manager中,为什么我的Agent节点健康状态显示为“不良”或“时钟偏差”?
A1: 这是最常见的两个问题。“不良”状态通常由多种原因引起,但最常见的是时钟同步问题网络/防火墙问题,请务必在所有节点上检查并启动NTP服务,使用ntpq -p命令确认同步状态,确保Manager节点的7180端口和Agent节点的端口(默认9000左右)在防火墙中是开放的,对于“时钟偏差”的明确告警,其根本原因就是节点间系统时间不一致,解决方案就是严格配置NTP服务,保证所有节点时间同步。

Q2: 安装完成后,如何修改HDFS的默认副本数?
A2: 修改HDFS副本数分为两种情况,第一种是修改已存在文件的副本数,可以使用HDFS Shell命令递归地修改某个目录下所有文件的副本数,将/user/hive/warehouse目录下所有文件的副本数改为2:

hdfs dfs -setrep -R 2 /user/hive/warehouse

第二种是修改新创建文件的默认副本数,这需要在Cloudera Manager中进行配置,进入HDFS服务的“配置”页面,搜索dfs.replication参数,将其值修改为你期望的默认副本数(如3),然后保存配置并重启HDFS服务,此后,所有新上传到HDFS的文件都将使用这个新的副本数。

图片来源于AI模型,如侵权请联系管理员。作者:酷小编,如若转载,请注明出处:https://www.kufanyun.com/ask/5834.html

(0)
上一篇 2025年10月14日 18:18
下一篇 2025年10月14日 18:24

相关推荐

  • 疑问句,长尾疑问词

    ctags配置是提升代码阅读效率与项目维护能力的核心工具,其本质在于通过建立代码索引数据库,实现函数、变量、类等符号的快速定位与跳转,对于开发者而言,熟练掌握ctags配置不仅是提升个人开发效率的捷径,更是团队协作中保持代码可读性的重要保障,在现代化的开发工作流中,无论是本地Vim/Emacs环境,还是云端协作……

    2026年3月30日
    0291
  • CentOS 7 yum源配置过程中,如何选择最合适的源以提高系统更新效率?

    CentOS 7 Yum源配置指南Yum(Yellowdog Updater, Modified)是Linux系统中常用的软件包管理器之一,它可以帮助用户方便地安装、更新和卸载软件包,在CentOS 7系统中,Yum源配置是确保系统能够正常获取软件包的前提,本文将详细介绍CentOS 7 Yum源的配置方法,C……

    2025年12月10日
    01300
    • 服务器间歇性无响应是什么原因?如何排查解决?

      根源分析、排查逻辑与解决方案服务器间歇性无响应是IT运维中常见的复杂问题,指服务器在特定场景下(如高并发时段、特定操作触发时)出现短暂无响应、延迟或服务中断,而非持续性的宕机,这类问题对业务连续性、用户体验和系统稳定性构成直接威胁,需结合多维度因素深入排查与解决,常见原因分析:从硬件到软件的多维溯源服务器间歇性……

      2026年1月10日
      020
  • 安全管理机构设置需满足哪些法定要求?

    安全管理机构是企业或组织内部负责安全生产工作的专门机构,其设立与运行直接关系到生产经营活动的安全有序开展,在当前安全生产形势日益严峻的背景下,构建科学、高效的安全管理机构已成为各类单位的必然选择,也是落实安全生产主体责任的重要保障,安全管理机构的设置需遵循“精简、高效、协同”的原则,根据单位规模、行业特点及风险……

    2025年10月30日
    01420
  • 防火墙与ECS,究竟如何高效配合以保障网络安全?

    在企业级云计算架构中,防火墙与ECS(弹性计算服务)的协同部署构成了网络安全防护的核心防线,作为承载业务系统的计算实例,ECS本质上部署于虚拟化环境中,其网络边界的安全管控完全依赖于防火墙策略的精细化配置,两者并非孤立存在,而是形成”计算资源+网络隔离”的纵深防御体系,这一架构设计直接决定了云上业务的安全基线……

    2026年2月12日
    0620

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注