吴 向君, 软件工程师, IBM 中国软件开发中心 曹 立, 软件工程师, IBM 中国软件开发中心
2008 年 1 月 17 日 本文介绍了使用 NIM 进行 AIX 跨网段安装的详细步骤和常见问题的解决办法。此方法适用于安装 AIX 5L 的各种版本。本文针对的读者需要掌握基础的 NIM 安装的知识以及一些简单的配置,因为在本文中对相关的基础操作都不做详细的介绍。您可以在 “网络安装管理器的强大功能” 一文中了解相关的基础知识。
引言
随着服务器和逻辑分区越来越多的使用 , 网络拓扑也变得越来越复杂。如何为每个服务器分区安装部署操作系统 , 是每一个系统管理员都要面对的任务。AIX 提供了 NIM (Network Installation Management) 工具实现网络安装 AIX 的功能 , 可以大大减轻系统管理员日常工作的维护量。对一个大型系统来说 , 设置多个网段是很常见的情况 , 我们在应用 NIM 安装的时候就需要做一些特别的配置来支持跨网段功能。
NIM 网络资源设置
为了执行特定的操作 ,NIM 服务器必须了解客户机的网络环境 , 还必须确保服务器及客户机之间的路由是可达的。为避免对所有客户机进行网络配置 , NIM 网络资源 (networks) 将用来表示在一个 NIM 系统环境中的特定的网络环境。
被支持的 NIM 网络资源类型包括:
- Ethernet
- Standard Ethernet
- IEEE 802.3 Ethernet
- Token-Ring
- FDDI
- ATM
- Generic
下面就是一个典型的 NIM 网络资源的例子。
# lsnim -l master_net
master_net:
class = networks
type = ent
Nstate = ready for use
prev_state = ready for use
net_addr = 10.1.2.0
snm = 255.255.255.0
routing1 = default 10.1.2.1
routing2 = node_net 10.1.2.1
|
network 的网络类型 (type) 是以太网,现在状态正常。它的网络地址是 10.1.2.0, 子网掩码是 255.255.255.0, 缺省路由是 10.1.2.1, 对 node_net 的静态路由是 10.1.2.1。
NIM 跨网段安装实例
为了实现跨网络安装 , 首先应当配置好 NIM 安装环境 (NIM 服务器 ,lpp_source,spot 等 ), 并且定义一个其他网段的 NIM 客户机。
如下所示 :
# lsnim
master machines master
boot resources boot
network1 networks ent
lpp_610GA resources lpp_source
spot610 resources spot
bid_ow resources bosinst_data
test_node machines standalone
|
下面是实例中的网络拓扑结构。
NIM 服务器 (NIM Master) 位于 10.1.2.0 网段 ,
NIM 客户机 (
NIM Client
) 位于 10.1.1.0 网段。为了进行跨网段安装 , 除了需要建立 10.1.1.0 网段的 NIM 网络资源 , 还需要建立从 10.1.2.0 网段到 10.1.1.0 网段的静态路由。即我们需要确保从 NIM 服务器到客户机的网络通信是可达的。
当前 NIM 服务器的网络资源已经建立 ( 见上面的实例
):
我们接下来应该根据如下步骤在 NIM 服务器端搭建跨网段安装环境。
- 通过命令行或者 smit 去建立 NIM 客户机的网络资源。
- 通过命令行或者 smit 去创建从 NIM 服务器所在网络到 NIM 客户机所在网络的静态路由。
- 通过命令行或者 smit 去定义位于特定网络的 NIM 客户机。
- 通过命令行或者 smit 去对 NIM 客户机进行安装操作。
- 用户需要从安装网卡网络启动 NIM 客户机。
1. 建立 NIM 的网络资源
按照如下步骤 ,
10.1.1.0 网段网络资源 10_1_1_0_net 将被创建。
命令行方式 :
#nim -o define -t ent -a net_addr=10.1.1.0 -a snm=255.255.255.0
-a routing1="default 10.1.1.14" 10_1_1_0_net
|
命令中的重要选项含义:
net_addr: 网络地址
snm : 子网掩码
routing1 : 缺省路由
或者 smit 方式 :
smit nim_net -> Define a Network -> ent (ethernet network)
-> Fill in corresponding attribute.
|
SMIT 选项含义 :
Network Name :
网络资源名
Network Type :
网络类型
Ethernet Type :
以太网类型
Network IP Address :
网络地址
Subnetmask :
子网掩码
2. 为客户端网络生成静态路由
按照如下步骤 , 从 10.1.2.0 网络到 10.1.1.0 网络的静态路由将会建立。
我们推荐由 NIM 服务器为 NIM 客户机分配网络静态路由 , 因为这是一种更正式和安全的方式。
步骤如下 :
smit nim_net -> Manage Network Install Routing ->
Define a Static Network Install Route ->
Choose "Originating Network Name" -> Choose "Destination Network Name"
|
SMIT 选项含义 :
Originating Network Name: 源 NIM 网络资源名
Gateway Used by Originating Network: 源网络网关
Destination Network Name: 目标 NIM 网络资源名
Gateway Used by Destination Network: 目标网络网关
操作完成后 , 我们可以使用“lsnim -l master_net” 和“lsnim -l 10_1_1_0_net” 命令来验证路由的设置是否正确。
3. 使用 10_1_1_0_NET 在 NIM 数据库中定义客户机 :
按照如下步骤 ,
NIM 客户机资源 testnode 将被建立。
命令行方式 :
#/usr/sbin/nim -o define -a netboot_kernel=64 -a platform=chrp
-a net_settings1='auto auto' -a if1='10_1_1_0_net testnode.ibm.com 720AF0C20302 ent'
-a cable_type1=N/A testnode
|
注意 : 在我们的例子里,NIM 客户机 testnode 的 hostname 是 testnode.ibm.com, 安装网卡的 MAC 地址是 720AF0C20302。
SMIT 方式 :
smit nim -> Perform NIM Administration Tasks -> Manage Machines -> Define a Machine
|
SMIT 选项含义 :
NIM Machine Name : NIM 客户机名
Machine Type : NIM 客户机类型
Hardware Platform Type : 硬件平台类型
NIM Network : NIM 网络资源名
Subnetmask :NIM 网络资源的子网掩码
4. 执行 bos_inst 操作
命令行方式 :
# nim -o bos_inst -a source=rte -a boot_client=no -a lpp_source=610_0741_lpp
-a spot=610_0741_spot -a bosinst_data=bid_ow -a accept_licenses=yes testnode
|
SMIT 方式:
smit nim -> Perform NIM Administration Tasks ->
Manage Machines ->Change/Show Characteristics of a Machine
|
注意 :
1. 在对 NIM 客户机进行 bos_inst 之前,需要首先为 NIM 客户机分配特定的 lpp_source 及 spot 资源等。具体步骤请参阅 pSeries and AIX Information Center
2. 如果服务器和客户端之间有多个网关 , 我们需要选择离客户端最近的网关。这样的话 ,bootp 广播就可以通过第一线的网关到达 NIM 服务器。
最后,客户机通过设置了 NIM IP 地址的那块网卡启动,就可以进行相应的网络安装了。
常见问题解答 :
1. 跨网段安装时出错
Q: 当 NIM 客户机从网络启动时 , 无法从 NIM 服务器得到远程启动镜像。
A: (1) 启动 NIM 客户机进入到 SMS 菜单 , 选择要进行安装网络适配器进行 ping 测试。如果测试成功 , 排除网络故障 , 进入步骤 2 。否则 , 请检查网络设备的连接和设置。
(2) 检查 bootp 及 tftpd 服务在 NIM 服务器上工作正常。
检查 tftpd 子系统工作正常 :
# lssrc -s tftpd
Subsystem Group PID Status
tftpd tcpip 802842 active
|
检查 bootp 服务工作正常 :
# netstat -an | grep 67
udp 0 0 *.67 *.*
|
如果 tftpd 子系统工作异常 , 运行如下命令去启动 tftpd:
如果 bootp 子系统工作异常 , 采取如下步骤去启动 bootp:
确保 /etc/inetd.conf 包含如下行 :
bootps dgram udp wait root /usr/sbin/bootpd bootpd
(3) 如果问题仍然存在 , 请联系 IBM 服务部门。
2. 删除网络资源出错
Q: 当试图去删除某一网络资源时 , 操作总是失败 , 出现如下错误。
0042-001 nim: processing error encountered on "master":
0042-040 m_rmnet: unable to remove the "network" definition because
it is currently referenced by other objects
A: 这是因为 'network' 网络资源已经被某些其他 NIM 对象正在用。请运行如下命令去检查哪些 NIM 对象正在使用 network 网络资源。
# lsnim -l | grep -E 'network|:'
e115m6el405:
if1 = network e115m6el405 720AF6C3F602 ent
c68m4hvp17:
e115m6el402:
if1 = network e115m6el402 720AF0C20302 ent
|
按照上面的输出 ,e115m6el405 和 c68m4hvp17 NIM 客户机定义了 network NIM 网络资源。你需要先删除这两个 NIM 客户机 , 再去删除网络资源。
结论
通过 NIM 进行跨网段的 AIX 操作系统安装可以极大减少系统管理员的工作量。只需在系统环境中部署一台 NIM 服务器 , 就可以管理安装网络中不同网段的分区。
参考资料 学习
获得产品和技术
-
IBM 试用软件:从 developerWorks 可直接下载这些试用软件,您可以利用它们开发您的下一个项目。
讨论
作者简介  | |  | 吴向君是 IBM 中国软件开发中心 HPC 部门的软件工程师,主要从事机群系统管理的相关研发工作。 |
 | |  | 曹立是 IBM 中国软件开发中心 HPC 部门的软件工程师,主要从事机群系统管理的相关研发工作。 |
对本文的评价
|