如何一步步完成CDH5的安装与配置全流程?

Cloudera Distribution Including Apache Hadoop 5 (CDH5) 作为曾经业界广泛使用的企业级Hadoop发行版,提供了稳定、可靠且易于管理的大数据平台,其核心在于通过Cloudera Manager这一强大的管理工具,极大地简化了Hadoop生态组件的安装、配置、监控和运维过程,本文将系统性地介绍CDH5的安装与配置流程,旨在为读者提供一份清晰、详尽的实践指南。

如何一步步完成CDH5的安装与配置全流程?

环境准备与系统配置

在开始安装之前,充分的前期准备是确保集群稳定运行的关键,此阶段的工作主要涉及硬件、操作系统、网络和基础软件的配置。

系统与硬件要求
CDH5对操作系统有明确要求,通常推荐使用CentOS 6.x或7.x的稳定版本,所有集群节点(包括主节点和从节点)的硬件配置应根据业务负载进行规划,但最低建议如下:

  • 内存: 主节点(NameNode, ResourceManager等)建议至少16GB,从节点(DataNode, NodeManager等)建议至少8GB。
  • CPU: 4核或以上。
  • 磁盘: 主节点需要足够的磁盘空间存储元数据,从节点则需要大容量数据盘,建议使用JBOD(Just a Bunch of Disks)模式而非RAID,以便HDFS能独立管理每块磁盘。
  • 网络: 千兆以太网是基本要求,节点间网络延迟需尽可能低。

网络与主机名配置
集群内所有节点必须能够通过主机名互相通信,并且主机名解析稳定,修改每台服务器的/etc/hosts文件,添加所有集群节点的IP地址和主机名映射,示例如下:

168.1.10 cdh-master
192.168.1.11 cdh-worker1
192.168.1.12 cdh-worker2

确保使用hostname命令设置的主机名与/etc/hosts中的配置一致,为了简化安装,建议在安装期间关闭防火墙和SELinux,但在生产环境中应配置相应的防火墙规则。

SSH免密登录
Cloudera Manager Server需要通过SSH协议连接到所有Agent节点进行部署和管理,需要配置从Manager节点到所有其他节点的SSH免密登录,在Manager节点上执行:

# 生成密钥对
ssh-keygen -t rsa
# 将公钥分发到所有节点(包括自身)
ssh-copy-id cloudera-scm@cdh-master
ssh-copy-id cloudera-scm@cdh-worker1
ssh-copy-id cloudera-scm@cdh-worker2

这里建议创建一个统一的用户(如cloudera-scm)用于集群管理。

时钟同步与Java环境
Hadoop集群对时间同步极其敏感,节点间时钟偏差过大会导致集群工作异常,必须确保所有节点都安装并启动了NTP服务。

yum install -y ntp
service ntpd start
chkconfig ntpd on

CDH5需要Java环境,通常推荐使用Oracle JDK 1.7或1.8,下载JDK安装包并配置好JAVA_HOME环境变量,确保所有节点版本一致。

Cloudera Manager与CDH5的安装

环境准备就绪后,可以开始核心的安装工作,整个流程以Cloudera Manager为中心展开。

如何一步步完成CDH5的安装与配置全流程?

安装Cloudera Manager Server
选择一台性能较好的服务器作为Manager节点,配置Cloudera的YUM仓库源。

wget https://archive.cloudera.com/cm5/redhat/7/x86_64/cm/cloudera-manager.repo -O /etc/yum.repos.d/cloudera-manager.repo

使用YUM命令安装Server软件包。

yum install -y cloudera-manager-server-db
yum install -y cloudera-manager-server

安装完成后,需要初始化Server的数据库,如果使用内嵌的PostgreSQL数据库,可直接运行初始化脚本:

/usr/share/cmf/schema/scm_prepare_database.sh postgresql scm scm scm_password

启动Cloudera Manager Server服务:

service cloudera-scm-server start

启动过程需要几分钟,可以通过查看日志/var/log/cloudera-scm-server/cloudera-scm-server.log来跟踪进度。

安装Cloudera Manager Agent
所有节点(包括Manager节点)上执行Agent的安装,同样,先确保YUM仓库源已配置。

yum install -y cloudera-manager-agent

安装后,需要修改Agent的配置文件/etc/cloudera-scm-agent/config.ini,将其中的server_host指向Manager节点的主机名。

server_host=cdh-master

保存后,启动Agent服务:

service cloudera-scm-agent start

通过Web UI进行集群安装
当Server和所有Agent都启动成功后,便可以通过浏览器访问Cloudera Manager的Web界面:http://<cdh-master-host>:7180,默认管理员用户名和密码均为admin
登录后,系统会引导你完成一个安装向导:

如何一步步完成CDH5的安装与配置全流程?

  • 接受许可条款
  • 选择版本:选择“免费版”或“试用版”。
  • 指定集群名称
  • 选择主机:Manager会自动发现所有已注册的Agent节点,勾选需要加入集群的主机。
  • 选择存储库:可以选择使用 parcels 方式从Cloudera官方下载(需要外网),或使用本地已准备好的Parcel包。
  • 安装Parcel:系统会分发、解压并激活CDH5的Parcel包。
  • 检查主机正确性:Manager会自动检查各主机的环境问题,如时钟同步、磁盘空间等,需根据提示修复。
  • 选择服务:根据需求选择要安装的服务,如HDFS、YARN、ZooKeeper、Hive等,可以选择安装一套核心服务或自定义服务组合。
  • 配置服务:为所选服务进行基本配置,如数据库连接信息(Hive、Oozie等)、各种目录路径等。
  • 启动服务:完成配置后,Manager将按照依赖顺序依次启动所有服务。

服务配置与优化

安装完成后,Cloudera Manager提供了强大的配置管理界面,你可以根据集群的硬件资源和业务需求,对各项服务进行精细化调优,以下是一些关键服务的核心配置参数示例:

服务 关键参数 建议配置/说明
HDFS dfs.replication 数据块副本数,生产环境通常设为3,测试环境可设为2。
HDFS NameNode Heap Size NameNode的堆内存大小,根据元数据量设置,通常建议8GB以上。
YARN NodeManager Memory NodeManager可用的物理内存总量,通常设为服务器物理内存的70%-80%。
YARN yarn.scheduler.minimum-allocation-mb YARN容器可申请的最小内存。
ZooKeeper maxClientCnxns 单个客户端IP地址的最大连接数,默认为60,可根据需要调整。

在Cloudera Manager界面中,进入对应服务的“配置”页面,搜索上述参数即可进行修改,修改后需保存配置并重启相关服务才能生效。

小编总结与注意事项

CDH5的安装配置是一个系统性工程,从前期的环境规划到后期的服务调优,每一步都至关重要,Cloudera Manager极大地降低了部署的复杂性,但深入理解Hadoop各组件的原理和配置项,仍然是运维好一个大数据集群的基础。

特别提醒:CDH5版本已停止官方支持(End of Life, EOL),不再接收安全更新和功能补丁,对于新项目,强烈建议使用Cloudera的最新平台CDP(Cloudera Data Platform),本文档主要面向仍在维护CDH5遗留系统的技术人员。


相关问答FAQs

Q1: 在Cloudera Manager中,为什么我的Agent节点健康状态显示为“不良”或“时钟偏差”?
A1: 这是最常见的两个问题。“不良”状态通常由多种原因引起,但最常见的是时钟同步问题网络/防火墙问题,请务必在所有节点上检查并启动NTP服务,使用ntpq -p命令确认同步状态,确保Manager节点的7180端口和Agent节点的端口(默认9000左右)在防火墙中是开放的,对于“时钟偏差”的明确告警,其根本原因就是节点间系统时间不一致,解决方案就是严格配置NTP服务,保证所有节点时间同步。

Q2: 安装完成后,如何修改HDFS的默认副本数?
A2: 修改HDFS副本数分为两种情况,第一种是修改已存在文件的副本数,可以使用HDFS Shell命令递归地修改某个目录下所有文件的副本数,将/user/hive/warehouse目录下所有文件的副本数改为2:

hdfs dfs -setrep -R 2 /user/hive/warehouse

第二种是修改新创建文件的默认副本数,这需要在Cloudera Manager中进行配置,进入HDFS服务的“配置”页面,搜索dfs.replication参数,将其值修改为你期望的默认副本数(如3),然后保存配置并重启HDFS服务,此后,所有新上传到HDFS的文件都将使用这个新的副本数。

图片来源于AI模型,如侵权请联系管理员。作者:酷小编,如若转载,请注明出处:https://www.kufanyun.com/ask/5834.html

(0)
上一篇 2025年10月14日 18:18
下一篇 2025年10月14日 18:24

相关推荐

  • 安全管家服务哪家好?新手选品牌要注意这3点吗?

    在当今数字化快速发展的时代,企业面临着日益复杂的安全威胁,从数据泄露到系统攻击,任何安全漏洞都可能造成不可估量的损失,选择一家专业的安全管家服务成为企业保障信息安全的关键,安全管家服务哪家好?本文将从服务能力、技术实力、客户口碑、服务模式等维度,为您详细分析如何选择合适的安全管家服务提供商,并介绍行业内值得关注……

    2025年10月29日
    02210
  • 红米3配置参数是什么,红米3手机多少钱

    红米3配置参数:经典入门机的性能边界与当代应用价值解析红米3作为小米生态链中极具代表性的入门级智能手机,其核心配置在发布初期便确立了“高性价比”的市场地位,尽管该机型已停产多年,但其搭载的骁龙430处理器、3GB运行内存以及1300万像素摄像头组合,至今仍被部分用户用于备用机、老人机或轻量级物联网控制终端,对于……

    2026年5月28日
    0634
  • unity电脑配置要求高吗,unity电脑配置

    Unity开发环境配置的核心逻辑与高效实践指南在Unity游戏开发中,电脑配置并非“越贵越好”,而是取决于项目规模、渲染管线选择以及开发阶段,对于绝大多数中小型独立开发者及初学者而言,16GB内存、RTX 3060级别显卡及NVMe SSD是性价比最高的“甜点配置”;而对于涉及大规模场景、高保真渲染或VR开发的……

    2026年5月30日
    0272
    • 服务器间歇性无响应是什么原因?如何排查解决?

      根源分析、排查逻辑与解决方案服务器间歇性无响应是IT运维中常见的复杂问题,指服务器在特定场景下(如高并发时段、特定操作触发时)出现短暂无响应、延迟或服务中断,而非持续性的宕机,这类问题对业务连续性、用户体验和系统稳定性构成直接威胁,需结合多维度因素深入排查与解决,常见原因分析:从硬件到软件的多维溯源服务器间歇性……

      2026年1月10日
      020
  • 仅配置SQL Server,却无法正常使用,这是为何?

    在当今的信息化时代,SQL Server 作为一款强大的数据库管理系统,被广泛应用于各种企业级应用中,对于一些基础用户或者小型项目来说,了解和配置 SQL Server 的基本设置是至关重要的,本文将详细介绍 SQL Server 的基本配置步骤,帮助用户快速上手,SQL Server 配置概述SQL Serv……

    2025年11月12日
    01790

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注