Turbolinux GreatTurbo Cluster Server 10 User Guide

GreatTurbo Cluster
Server 10
用户手册
版权所有 (c) 2006
北京拓林思软件有限公司
目 录
前言..................................................................................................................1
GreatTurbo Cluster Server 10 的历史...............................1
本用户手册使用说明..............................................1
第一章 GreatTurbo Cluster Server10 介绍 ....................................................3
1.1 GreatTurbo Cluster Server 10 简介 .............................3
1.2 应用支持....................................................4
1.3 GreatTurbo Cluster Server 10 技术特点 .........................4
1.3.1 支持磁盘镜像功能 ......................................4
1.3.2 提供多种类型的磁盘阵列支持 ............................5
1.3.3 多种硬件心跳保证系统一致性 ............................5
1.3.4 可靠的故障时切换策略 ..................................5
1.3.5 支持 STONITH 技术 ....................................6
1.3.6 支持 Watchdog Timers ..................................6
1.3.7 智能的服务回迁以及多服务的负载分担 ....................6
1.3.8 可以检测更多的故障 ....................................6
1.3.9 应用程序代理检查 ......................................7
1.3.10 应用程序代理 API .....................................7
1.3.11 图形管理工具 .........................................7
1.3.12 更好的日志文件系统支持 ...............................8
1.3.13 更详细的系统故障日志信息 .............................8
1.4 GreatTurbo Cluster Server 10 的使用限制 .......................8
1.5 GreatTurbo Cluster Server 10 的相关术语 .......................9
第二章 硬件安装和操作系统的配置..............................................................13
2.1 选择硬件配置...............................................13
2.1.1 集群硬件表 ...........................................17
2.1.2 最低集群配置举例 .....................................23
2.1.3 无单点故障配置举例 ...................................25
2.2 集群系统的设置步骤.........................................27
2.2.1 安装基本系统硬件 .....................................28
2.2.2 安装控制台交换机 .....................................30
2.2.3 安装网络交换机或集线器 ...............................31
2.3 安装和配置 Linux 发行版 OS..................................31
2.3.1 安装 GTES10 操作系统 ..................................32
2.3.2 编辑/etc/hosts 文件 ....................................33
2.3.3 显示控制台启动信息 ...................................34
2.3.4 确定内核中已配置的设备 ...............................37
2.4 安装和连接集群硬件的步骤...................................38
2.4.1 配置心跳通道 .........................................39
2.4.2 配置电子开关 .........................................40
2.4.3 配置 UPS 系统 ........................................42
2.4.4 配置共享磁盘存储器 ...................................44
2.4.5 配置磁盘镜像存储器 ...................................57
第三章 安装 GreatTurbo Cluster Server 10 .................................................58
3.1 安装 GreatTurbo Cluster Server 10............................58
3.1.1 确认您所使用的 GreatTurbo Cluster Server 10 产品的类型..58
3.1.2 安装 GreatTurbo Cluster Server 10 ......................58
3.1.3 安装 guiadmin 客户端 ..................................60
3.2 注册 GreatTurbo Cluster Server 10............................61
3.3 升级 GreatTurbo Cluster Server 10............................64
3.3.1 GreatTurbo Cluster server 10 的升级 ....................64
第四章 卸载 GreatTurbo Cluster Server 10 .................................................66
4.1 卸载 GreatTurbo Cluster Server 10............................66
4.2 卸载 drbd ..................................................67
4.3 卸载 GreatTurbo Cluster Server10 realserver ................68
4.4 卸载 guiadmin 客户端........................................69
第五章 配置 GreatTurbo Cluster Server 10 .................................................70
5.1 member_config 工具说明 .....................................70
5.2 配置 GreatTurbo Cluster Server 10............................71
5.2.1 选择其中一节点进行初始化配置 .........................71
5.2.2 在对方节点上同步配置 .................................80
5.2.3 利用备份的配置文件配置 GreatTurbo Cluster Server 10 ....81
5.3 运行 GreatTurbo Cluster Server 10............................81
5.4 停止 GreatTurbo Cluster Server 10............................82
第六章 配置和管理工具说明 ........................................................................84
6.1 cluadmin 工具...............................................84
6.2 guiadmin 工具...............................................91
6.2.1 guiadmin 介绍 .........................................91
6.2.2 guiadmin 模块介绍 .....................................92
6.2.3 登陆密码的设定........................................94
第七章 配置和管理 GreatTurbo Cluster Server 10 的服务...........................96
7.1 配置服务前的准备工作.......................................96
7.1.1 收集服务信息 .........................................96
7.1.2 创建服务脚本 .........................................98
7.1.3 应用代理 API ........................................103
7.1.4 配置服务的磁盘存储设备 ..............................108
7.2 用文本工具 cluadmin 配置和管理服务.........................118
7.2.1 添加服务 ............................................118
7.2.2 显示服务配置 ........................................125
7.2.3 修改服务 ............................................127
7.2.4 删除服务 ............................................128
7.2.5 禁用服务 ............................................128
7.2.6 启用服务 ............................................129
7.2.7 切换服务 ............................................130
7.3 用图形工具 guiadmin 配置和管理服务.........................130
7.3.1 添加服务 ............................................132
II
7.3.2 显示服务配置 ........................................138
7.3.3 修改服务 ............................................138
7.3.4 删除服务 ............................................138
7.3.5 禁用服务 ............................................138
7.3.6 启用服务 ............................................139
7.3.7 切换服务 ............................................139
7.4 配置典型应用的服务........................................139
7.4.1 配置 Oracle 服务 .....................................140
7.4.2 配置 MySQL 服务 ....................................150
7.4.3 配置 DB2 服务 .......................................158
7.4.4 配置 Apache 服务 ....................................167
7.4.5 配置 Domino 服务 ....................................176
7.4.6 配置 Informix 服务 ....................................182
7.4.7 配置 Sybase 服务 ....................................188
7.4.8 配置 Websphere 服务 .................................192
7.5 处理错误状态下的服务......................................197
第八章 集群管理........................................................................................200
8.1 使用文本界面进行集群管理..................................200
8.1.1 显示集群和服务的状态 ................................200
8.1.2 启动和停止集群软件 ..................................205
8.1.3 修改集群配置 ........................................206
8.1.4 备份和恢复集群数据库 ................................206
8.1.5 修改集群事件日志 ....................................207
8.1.6 更新集群软件 ........................................209
8.1.7 重新加载集群数据库 ..................................210
8.1.8 修改集群名称 ........................................211
8.1.9 重新初始化集群 ......................................211
8.1.10 删除集群中的成员 ...................................212
8.1.11 修改集群 watchdog 的超时时间 .......................213
8.1.12 修改集群的心跳属性 .................................213
8.1.13 修改集群告警邮件属性 ...............................215
8.2 使用图形界面进行集群管理..................................216
8.2.1 显示集群和服务的状态 ................................216
8.2.2 如何在集群系统上运行 guiadmin .......................217
8.2.3 如何从远程系统上运行 guiadmin .......................217
8.2.4 配置、修改心跳(heartbeat)参数......................218
8.2.5 配置、修改集群进程日志级别 ..........................219
8.2.6 配置、修改邮件提示参数 ..............................219
8.2.7 配置、修改 watchdog 信息 ............................220
8.2.8 显示节点的配置信息 ..................................221
第九章 集群的维护.....................................................................................222
9.1 GreatTurbo Cluster Server 10 的日志信息 .....................222
9.2 Log 收集工具的使用方法 ....................................223
9.3 FAQ ......................................................224
III
9.4 诊断和纠正集群中的故障....................................228
9.5 联系拓林思软件有限公司....................................231
附录 A 补充硬件信息 .................................................................................233
A.1 设置 Cyclades 终端服务器 ..................................233
A.1.1 设置路由器的 IP 地址 .................................234
A.1.2 设置网络和终端端口参数..............................236
A.1.3 配置 Turbolinux,以向控制台端口发送控制台信息 ........241
A.1.4 连接到控制台端口....................................243
A.2 设置 RPS-10 电子开关 ......................................244
A.3 SCSI 总线配置要求.........................................245
A.3.1 SCSI 总线终端 .......................................247
A.3.2 SCSI 总线长度 .......................................249
A.3.3 SCSI 标识号 .........................................249
附录 B 补充软件信息 .................................................................................251
B.1 集群通信机制..............................................251
B.2 集群守护进程(Daemon..................................252
B.3 故障切换和恢复情形........................................253
B.3.1 系统挂起(Hang...................................253
B.3.2 系统紧急(Panic...................................254
B.3.4 网络连接完全故障....................................254
B.3.5 远程电子开关连接故障................................255
B.3.6 集群 Daemon 故障 ...................................255
B.4 集群数据库选项............................................255
B.5 磁盘镜像配置..............................................257
B.5.1 介绍................................................258
B.5.2 兼容性..............................................259
B.5.3 Linux kernel2.4 版本 drbd 的配置文件 ...................259
B.5.4 Linux kernel2.6 版本 drbd 的配置文件 ...................261
B.5.5 drbd 的启动和停止....................................264
B.5.6 Linux kernel2.4 版本/proc/drbd .........................264
B.5.7 Linux kernel2.6 版本/proc/drbd .........................265
B.5.8 有关 drbd Q&A ....................................267
B.6 调整 Oracle 服务...........................................268
IV
GreatTurbo Cluster Server 10 用户手册
前言
GreatTurbo Cluster Server 10 的历史
GreatTurbo Cluster Server 10 是北京拓林思软件有限公司推出的、为满足
Linux 平台电信级和企业级应用的高可用产品。GreatTurbo Cluster Server 10 提供
的双机高可用、负载均衡方案能够更好的满足用户业务的连续性,并且能够满足不 同应用对高可用的要求。
2001 年以来,北京拓林思软件有限公司先后推出了高可用和负载均衡产品。
GreatTurbo Cluster Server 10 是完整的高可用、负载均衡解决方案。 GreatTurbo Cluster Server 10 提供更好的可靠性、更高的性价比、更好的易用性和可管理性, 完全满足企业级应用所要求的 RASM(ReliabilityAvailabilityScalability Manageability)特性。同时 GreatTurbo Cluster Server 10 支持磁盘镜像功能,使得
用户应用和 GreatTurbo Cluster Server 10 软件可以不需要磁盘阵列来提供高可用 服务。
GreatTurbo Cluster Server 10 可支持 Turbolinux 发布的 GTES10 操作系统平 台。由于 GreatTurbo Cluster Server 10 可以和 Turbolinux 操作系统更好的配合, 使得从操作系统到 GreatTurbo Cluster Server 10 软件构建的高可用解决方案更加 的可靠,并广泛服务于电信、银行、政府等行业客户。
本用户手册使用说明
GreatTurbo Cluster Server 10 用户手册》是帮助用户了解、使用和维护
GreatTurbo Cluster Server 10 的文档,文档中详细阐述了 GreatTurbo Cluster Server 10 的技术特点、系统软硬件环境、安装、配置、管理、维护、FAQ 等各个
方面。
如果用户第一次使用 GreatTurbo Cluster Server 10,建议仔细阅读本手册,
以便于对 GreatTurbo Cluster Server 10 进行详细的了解。
如果用户已经对 GreatTurbo Cluster Server 10 有所了解,可以直接阅读
GreatTurbo Cluster Server 10 用户手册
GreatTurbo Cluster Server 10 快速安装文档》进行安装配置。
GreatTurbo Cluster Server 10 用户手册
第一章 GreatTurbo Cluster Server10 介绍
1.1 GreatTurbo Cluster Server 10 简介
GreatTurbo Cluster Server 10是北京拓林思软件有限公司推出的为满足 Linux 平台企业级应用的高可用和负载均衡产品。它同时具备了高可用和负载均衡产品所 有的功能,而且在原有功能的基础上增加了许多新的功能。它提供的双机高可用方 案不但能够保证负载均衡调度器自身的高可用,而且更好的满足用户业务的连续性、 更加可靠,并且能够满足不同应用对高可用的要求;而其提供的负载均衡功能使得 您的 WebIPTVMail、Game 等各种解决方案可以昼夜不停地提供 24×7 的服务, 同时提供了您业务强大的并发处理能力。GreatTurbo Cluster Server 10 是基于最 新的 linux 2.6 内核,其领先的集群技术为您的业务注入更高的可靠性、稳地性、 和强大的扩展能力。
2000 年以来,北京拓林思软件有限公司先后推出了高可用产品系列 TurboHA 和负载均衡产品 TurboCluster GreatTurbo Cluster Server 10 是在这两个系列 产品的基础上,根据市场的实际需求和企业级用户多年实践经验的总结,依据已有 成熟架构的基础上而开发的,它能够为 LAMPLinuxApache、Mysql、Perl/PHPPython)架构的应用和企业级用户提供更加可靠和可扩展的基础平台。GreatTurbo Cluster Server 10 提供更好的可靠性和可扩展性,更高的性价比,更好的易用性 和可管理性,完全满足企业级应用所要求的 RASM(ReliabilityAvailability
ScalabilityManageability)特性。
GreatTurbo Cluster Server 10 可支持 Turbolinux 发布的 GTES10/TDS10 操作 系统平台,适用于 i386x86_64IA64openpower 等主流的硬件平台。由于 GreatTurbo Cluster Server 10 可以和 Turbolinux 操作系统更好的配合,使得从
操作系统到 GreatTurbo Cluster Server 10 软件构建的高可用和负载均衡解决方案 更加的可靠,并广泛服务于电信、银行、政府等行业客户。
GreatTurbo Cluster Server 10 用户手册
1.2 应用支持
当我们通过硬件(服务器、交换机、电子开关等)和软件(操作系统平台、HA 系统软件、应用软件等)搭建一个高可用群集环境的时候,首先我们需要明确的是, 高可用系统软件能否支持和管理我们的应用程序。GreatTurbo Cluster Server 10 高可用功能能够支持绝大多数的 Linux 环境下的应用程序,支持的典型应用程序类 型如下:
¾ 通用的,无需修改的应用程序:GreatTurbo Cluster Server 10支持大多数
Linux平台的应用程序,这些应用大多数是能够接受几秒种的停机时间的业 务。
¾ 数据库应用:GreatTurbo Cluster Server 10能够很好的支持各种数据库产
品,包括Oracle 8i/9i/10gMySQLSybaseIBM DB2数据库。
¾ 各种文件服务:GreatTurbo Cluster Server 10能够为各种类型的文件服务
提供高可用集群功能,如NFSSMB/CIFS (使用Samba)
¾ 主流的商业应用软件:GreatTurbo Cluster Server 10能够很好的支持主流
的商业应用软件,如SAPOracle Application ServerTuxedo
¾ 互联网和开放源代码的应用:GreatTurbo Cluster Server 10可以很好的支
持各种流行的互联网应用软件和各种开放源代码产品,如ApacheWu-ftpVSFTP等。
¾ 邮件服务软件:如SendmailDomino
1.3 GreatTurbo Cluster Server 10 技术特点
1.3.1 支持磁盘镜像功能
磁盘镜像功能,是一种不需要磁盘阵列的双机数据共享方案。它的基本原理 是通过对两个节点各自的本地磁盘分区进行实时镜像操作,使得这两个本地磁盘 对双方节点而言,可以当作一个虚拟的共享磁盘设备来使用,这个虚拟的 RAID-1 级别的共享磁盘设备,能够作为应用的共享设备,既可以当作共享的裸设备来使 用,也可以在其上创建各种 Linux 文件系统。GreatTurbo Cluster Server 10 本身提供磁盘镜像功能,使得共享数据的应用不需要磁盘阵列也能够搭建双机高
GreatTurbo Cluster Server 10 用户手册
可用方案。
1.3.2 提供多种类型的磁盘阵列支持
对于需要磁盘阵列的一些应用,如数据库应用等,需要专业的硬件磁盘阵列 来保证性能。而 GreatTurbo Cluster Server 10 能够支持绝大多数的磁盘阵列 设备。
目前业界使用的磁盘阵列时,一般分两种情况:第一种是带独立 RAID 处理 器的磁盘阵列,主流厂商的 SCSI 或光纤磁盘阵列都可以适用于 GreatTurbo Cluster Server 10 的要求。第二种是使用主机 RAID 卡和磁盘柜(磁盘柜是指 不具备硬件 RAID 处理器的磁盘盒)的方式,这种磁盘设备通过双机的硬件 RAIDclustering 技术和 RAID 的用户接口工具等,也可以满足 GreatTurbo Cluster Server 10 的共享数据存取的需求,常见的这种类型的“磁盘阵列”的典型产品 有 IBM EXP400DELL 220SHP MSA500-G2 等。
1.3.3 多种硬件心跳保证系统一致性
GreatTurbo Cluster Server 10 同时支持直连网线、串口和 raw 磁盘分区 的方式来同步 HA 两个节点之间的心跳信息。可同时支持多条直连网线和串口线 以及磁盘的 raw 分区作为通道,提供更高可靠性的硬件冗余方式,以保证两个节 点之间不会发生 Split-brain 现象。其中 raw 磁盘分区的心跳通道,保证了只要 主备节点能够访问共享数据,就不会发生裂脑,从而有效的确保了共享数据的一 致性。即使两节点之间的心跳通道都发生故障,GreatTurbo Cluster Server 10 还可以通过配置第三方参考 IP 的方式,保证两个节点系统的一致性。GreatTurbo Cluster Server 10 支持配置多个第三方参考 IP,避免了第三方参考 IP 成为的 单一故障点。
1.3.4 可靠的故障时切换策略
无论是否配置第三方 IP,主节点所有的网络都发生故障时,仍能够保证服 务切换到正常的备节点上,不影响对外正常提供服务。
GreatTurbo Cluster Server 10 用户手册
1.3.5 支持 STONITH 技术
Stonith(shut the other node in the head),就是把故障节点重启,以保 证资源被完全释放。Stonith 的方式有两种,一种是通过电子开关(power switch) 来重启对方;(另外一种是通过网络发送命令来重启对方。但是后者通常不起作 用)。有一些厂家的服务器有类似的管理界面(一种硬件设备),也可以用来作 为 stonith 的工具,比如 IBM xServer 的 RSA(Remote Supervisor Adapter)和 Intel 的 IPMI,GreatTurbo Cluster Server 10 也可以支持。
1.3.6 支持 Watchdog Timers
GreatTurbo Cluster Server 10 的高可用功能支持三种类型的看门狗定时 器为系统提供了一个稳健的 I/O barrier。最简单的就是 Linux 内核自带的通过 中断处理来实现的软件 softdog 定时器,它被 GreatTurbo Cluster Server 10 用来控制后台程序的执行。
Linux 内核也支持一种硬件 NMI (non-maskable interrupt) 看门狗,这种 硬件看门狗通常需要专门服务器硬件支持 (常用的是主板上的 Intel 810 TCO 芯片组)。NMI 看门狗在没有检测到一个稳定正常的中断发生时就会确发节点服 务器的重启动。
最后一种,就是传统的硬件看门狗定时器,它是一种 PCI 设备,在市面上很 常见。当 PCI 设备的驱动没有正常的复位时,它就会强迫系统关闭或重启。
1.3.7 智能的服务回迁以及多服务的负载分担
GreatTurbo Cluster Server 10 支持优先节点的设置,可以把一些服务设 定到指定的优先节点,当优先节点故障时,服务切换到另一个节点,而当优先节 点又恢复时,服务会自动迁移到优先节点。这样可以让多个服务分别运行在两个 节点上,使得服务的负载可以分担到两个节点上。
1.3.8 可以检测更多的故障
GreatTurbo Cluster Server 10 能够检测更多的系统故障,从而增强了高 可用性集群所提供的可靠性。
GreatTurbo Cluster Server 10 用户手册
¾ 系统故障: 硬件错误 ¾ 系统紊乱: 统软件错误 ¾ 存储不可访问: 存贮错误 ¾ 网络断开: 网络错误 ¾ 集群进程故障: 集群软件错误 ¾ 服务故障: 服务应用程序错误。
1.3.9 应用程序代理检查
GreatTurbo Cluster Server 10 通过使用应用程序代理检查某一服务是否 运行。应用程序代理用于定期检查某一服务是正常工作。如果服务没有正常运行, 则相应地触发一次切换,使服务在另一节点被恢复。GreatTurbo Cluster Server 10 提供用于常用服务的应用程序代理,对于自身没有应用程序代理程序的服务 则可以使用 GreatTurbo Cluster Server 10 提供的接口进行灵活的按需定制。 请同时参见本文中的“应用程序代理 API”一节。
1.3.10 应用程序代理 API
应用程序代理 API 是一种在应用程序代理或服务检查程序和 GreatTurbo Cluster Server 10 服务进程之间的接口,在 GreatTurbo Cluster Server 10 用户手册中有详细介绍。按照此接口的规范,您可以为您的特定服务编写定制的 应用程序代理。编写定制的应用程序代理的好处在于它可以根据您现场实际的负 载情况为应用程序提供更精确的服务检查以及更快的切换。
1.3.11 图形管理工具
GreatTurbo Cluster Server 10 高可用功能通过提供基于 Java 技术的图形 管理工具而改善了集群的可管理性。支持本地和远程的监控和管理,支持 Linux/Windows 客户端的管理。
利用所提供的图形管理工具,可以方便地进行配置更改和状态监测。除了提 供图形管理工具外,GreatTurbo Cluster Server 10 还提供有功能同样强大的 命令行配置和监控管理工具。
GreatTurbo Cluster Server 10 用户手册
1.3.12 更好的日志文件系统支持
GreatTurbo Cluster Server 10 支持与日志文件系统诸如 Reiser Ext3 等的协同工作。这些日志文件系统特别适用于 GreatTurbo Cluster Server 10, 因为它们消除了诸如 Ext2 等文件系统中所化费的耗时的文件系统检查从而减少 了切换时间。当系统装载时,日志文件系统仅仅要求恢复其日志。当一种日志文 件系统被用于共享存贮时,GreatTurbo Cluster Server 10 能够自动地进行确 认,跳过不需要的 FSCK 文件系统检查,并立即装载文件系统用于文件系统日志 的恢复。
1.3.13 更详细的系统故障日志信息
GreatTurbo Cluster Server 10 采用的日志函数和 Linux syslogd 是一 样的方式,在两个节点均有记录,每个守护进程都有自己的日志级别,可以在配 置文件中指定。每一条记录的信息,包括有时间、日志级别、进程名称、进程 id、消息等内容,这样可以方便用户进行应用故障现场的保护以及故障后的分析 定位。同时日志的级别可以动态进行设置调整,以根据实际需要调整输出日志的 信息内容。默认情况下,系统已经将日志级别设置成较为详细的信息输出,包括 HA 启动、停止过程,HA 事件触发原因,服务故障原因,服务切换过程,服务手 动操作记录等。同时 GreatTurbo Cluster Server 10 还提供日志收集工具,自 动收集系统以及 HA 相关信息,以便于更方便的进行故障定位。
1.4 GreatTurbo Cluster Server 10 的使用限制
GreatTurbo Cluster Server 10 目前只支持 GTES10/TDS10 操作系统平台。 GreatTurbo Cluster Server 10 暂不支持并行处理的应用。也就是说不支持
同一个应用在两个节点同时并发运行的应用。例如:Oracle 9i RAC
GreatTurbo Cluster Server 10 配置的所有负载均衡(LB)服务都必须采用同
一种 ip 负载均衡技术。
GreatTurbo Cluster Server 10 配置的所有服务都必须运行在同一调度节点,
并且只能对全部服务进行统一操作,如 EnableDisableRelocate 等。
GreatTurbo Cluster Server 10 用户手册
GreatTurbo Cluster Server 10 的稳定性需要 OS 提供支撑。如果当操作系
统宕机时,可能会出现因 OS 没有彻底释放资源而导致 HA 系统丧失高可用 功能。在这种情况下,除非有额外的硬件设备,否则 GreatTurbo Cluster Server 10 并不能够完全保证能够自动恢复操作系统。此时需要用户手工干 预操作系统,对崩溃的操作系统进行复位操作。也就是说,当 OS 宕机时(尽 管这种可能性很小),如果用户没有以下硬件作为保障,仍然有可能会出现 用户业务中断的可能:
1)采用电子开关。 2)服务器节点采用支持硬件 watchdog 功能的主板。
配置 GreatTurbo Cluster Server 10 的两台计算机节点的心跳方式时,必须
保证至少一条心跳通道正常工作。如果两台节点之间的所有心跳通道都发生 故障而不能正常连通,有可能会导致 GreatTurbo Cluster Server 10 发生裂 脑(split-brain),发生裂脑后,GreatTurbo Cluster Server 10 有可能会导 致用户的资源不一致。为了完全杜绝裂脑现象的发生,可以采取如下方法:
1 采用电子开关。 2 使用第三方参考 IP,有关第三方参考 IP 的介绍将在第三章详述。
其中第一种办法是使用硬件的办法,由于电子开关是额外的电子硬件 设备,需要用户自行购买,所以实际中采用这种方式并不多;而第二种方 式是软件的方法,可以保证 GreatTurbo Cluster Server 10 发生裂脑时, 用户的资源不受损失,但是需要用户提供另一个永久性正常工作的参考性 IP 地址。
1.5 GreatTurbo Cluster Server 10 的相关术语
节点 : 指运行 GreatTurbo Cluster Server 10 程序的计算机。
服务 : 也叫做资源组,指用户应用相关的一组资源的集合,包括用户应用的 进程资源,磁盘资源,网卡资源,浮动 IP 资源,drbd 镜像资源等。服务可以是其 中几种资源或者全部资源的组合。服务也可以为空,即不包括任何资源。通常用户 的一个应用与 GreatTurbo Cluster Server 10 的一个服务对应。GreatTurbo Cluster Server 10 的服务分为两种:高可用服务(HA 服务)和负载均衡服务(LB服务)。
GreatTurbo Cluster Server 10 用户手册
HA 服务针对高可用集群确保高可用的对象。LB 服务是负载均衡系统进行调度的具 体应用,例如 Oracle 服务。HA 服务也可以是具体商业应用。在 GreatTurbo Cluster
Server 10 的典型应用中,LB 作为 HA 服务出现。也就是说,LB 的高可用性是由 HA 提供、保证的。
负载调度器(load balancer), 也 成为调度节点, 它是整个集群对外面的前端 机,负责将客户的请求发送到一组真实服务器上执行,而客户认为服务是来自一个 IP 地址(我们可称之为虚拟 IP 地址)上的。
真实服务器real server):也叫服务器池(server pool),是一组真正执 行客户请求的服务器,执行的服务有 WEBMAIL、FTP 和 DNS 等。 用户请求由调度节 点分发给真实服务器,由真实服务器来处理用户请求。
主节点 : 指服务运行所在的节点。
备节点 : 指完全没有服务运行的节点。如果主节点发生任何故障,服务就会 从主节点迁移到备节点。此时的备节点也就转变成主节点,此前的主节点也就转变 成备节点。
主备方式 常见的主备方式有 Active-Standby、Active-Active。Active-Standby 是指服务仅在一个节点上运行。Active-Active 是指在两个节点都有服务运行。也就 是说,Active-Active 方式时都是主节点,也都是备节点,互为主备关系。
优先节点(preferred node
指服务将优先运行的节点。 当配置一个服务时, 可以给这个服务设定优先节点。一般有两种情况建议配置优先节点,一种情况是当 两个服务器节点的硬件配置不一样时,应当将服务的优先节点设定为硬件配置较好 的节点;另一种情况是当需要配置多个服务且应用的负载较重,而且希望两个服务 分别在两个节点上运行以分担负载时,可以给这两个服务分别各设定一个节点作为 优先节点。
例如:假设服务 s 配置的优先节点是节点 A,并且将服务 s 在 A 节点启动,当 A 节点发生故障时,服 务 s 会迁移到 B 节点,后来当A 节点恢复之后,服务 s 会因 为A 节点设置成优先节点而自动回迁移到 A 节点。
当然,配置优先节点带来的弊病是,会导致服务多迁移一次。
10
GreatTurbo Cluster Server 10 用户手册
服务的迁移(relocate): 是指服务在一个节点发生故障之后,服务先在故障 节点进行服务的停止以释放服务的所有资源,然后在另一节点启动服务,使服务继 续可用的过程。
服务迁移的时间 :是指服务不可用的时间,也就是服务正在恢复之中但尚不可 用的时间段。
例如:服务在 A 节点发生故障的时刻为 T(a),服务自动迁移到 B 节点并在 B 节点成功运行的时刻为 T(b),那么服务的迁移时间 T(relocate)=T(b)-T(a)。另一方面, 从整个迁移的子过程来看,服务迁移的时间(近似等于) ≈服务在 A节点检测到错 误的时间+服务在 A 节点停止的时间+服务在 B 节点启动的时间。 其中,服务的启 动/停止时间是由用户的应用来决定的, 一般不能够进行调整,而服务检测到错误的 时间可以通过 GreatTurbo Cluster Server 10 的配置参数来进行调整。
服务检测到错误的时间 = 服务检查的间隔时间(check interval * 服务连续 检查到错误的次数(check count)。Check interval check count 参数可以在配 置服务的检测脚本时进行指定。 这样,只有当 GreatTurbo HA 检测到连续出错次数 达到指定的次数后,GreatTurbo Cluster Server 10 才认为服务确实出错。 服务确实 出错后,会自动触发 GreatTurbo Cluster Server 10 进行服务的迁移。
裂脑(split-brain): 所谓裂脑,是指 HA 的节点之间彼此失去了联系,但是 单个节点的 HA 仍然运行正常。发生裂脑的充要条件是:1. HA 的两个节点之间的 所有心跳通道都发生了故障,导致HA 的两个节点失去了任何联系。2. 两个节点的 HA 软件正在正常运行。
裂脑带来的直接后果是导致两个节点都会各自启动并运行同一个服务,竞争同 一个服务的资源,这样有可能会导致资源(尤其是共享数据)被损坏。
drbd(磁盘镜像设备)是指对两个节点各自大小相同的本地磁盘分区进行 实时镜像操作,使得这两个本地磁盘对双方节点而言,可以当作一个虚拟的共享磁 盘阵列来使用,这个虚拟的共享磁盘阵列就叫做 drbd 设备,可以把 drbd 当作普通 的磁盘设备来使用。
Watchdog(看门狗)
Watchdog 分为硬件级和软件级两种。硬件级 watchdog 是用来保障操作系统自动恢复的一种手段,如果服务器节点的主板支持 watchdog 功能,那么在 GreatTurbo Cluster Server 10 中可以进行相应的配置,当操作系统
11
GreatTurbo Cluster Server 10 用户手册
发生死机等不响应情况,主板就会将操作系统自动重启恢复,而无需人工干预,这 一点对于 “24 * 7”方式运行的服务器而言非常有用。 而软件级的watchdog 可以用 来保证 GreatTurbo Cluster Server 10 程序的健壮性但并不能保障操作系统的自动 重启恢复。所以硬件级的 watchdog 更加实用。
12
GreatTurbo Cluster Server 10 用户手册
第二章 硬件安装和操作系统的配置
设置硬件配置和安装 Linux 发行版时需按以下步骤操作:
1. 选择满足您的应用要求和用户要求的集群硬件配置。
2. 设置并连接集群系统和可选的控制台交换机、网络交换机或网络集线器。
3. 在集群系统节点上安装和配置 Turbolinux 操作系统。
4. 设置其余的集群硬件组件,并将其连接到集群系统。
在设置硬件配置和安装 Linux 发行版之后,您就可以安装集群软件了。
2.1 选择硬件配置
GreatTurbo HA 10 允许您使用商用软件来设置集群配置,以满足您的应用 和用户对性能、可用性和数据完整性的要求。可供选择的硬件范围很广,从低成 本的最低配置(只包括运行集群所需的组件)到高端配置(包括冗余心跳通道、 硬件 RAID 和电子开关)一应俱全。
无论您使用那种配置,都需要在集群中使用高质量的硬件,因为硬件故障往 往是造成系统停机的主要原因。
尽管所有的集群配置都提供一定的可用性,但有些配置能够避免所有的单点 故障。此外,所有的集群配置都提供数据完整性,但有些配置可以提供任何故障 情形下的数据保护。因此,您必须完全了解自己计算环境的需求和不同硬件配置 的数据完整性特性,以选择符合要求的硬件。
在选择集群硬件配置时,需要考虑以下几个方面:
您的应用和用户的性能要求
13
选择一种可提供足够内存、CPU I/O 资源的硬件配置,还应确
保该配置可以满足未来工作负载增长的需要。
成本限制
您所选择的硬件配置还必须能够满足预算要求。例如,具有多个 I/O 端口的系统通常比扩展能力较低的低端系统更为昂贵。TurbHA 6 支持 一整套存储设备,从单磁盘到多端口、独立式 RAID 控制器无所不包。
可用性要求
如果您的计算环境需要最高的可用性(如生产环境),那么您可以 设置能够防范所有单点故障(包括磁盘、存储互连、心跳通道和电源故
GreatTurbo Cluster Server 10 用户手册
障)集群硬件配置。对于那些可容忍可用性出现中断的环境而言(如开 发环境),可能不需要这样的保护。请参见配置心跳通道配置 UPS
系统配置共享磁盘存储器,了解关于使用冗余硬件实现高可用性的更
多信息。
在所有故障条件下保持数据完整性。
在集群配置中使用电子开关可确保服务数据能够在各种故障条件 下得到保护。电子开关可在故障切换过程中,在重启另一个集群系统的 服务之前,先对该集群系统进行加电重启。电子开关可以防止未响应系 统(“挂起”)在服务故障切换后恢复响应(“解除挂起”)时可能引 起的数据损坏,并对已从另一个集群系统(服务节点)中接收 I/O 的磁 盘做 I/O 操作。
如果存储设备支持 SCSI 保留命令,那么集群还可使用 SCSI 保留 来提供故障条件下的数据保护。通过使用 SCSI 保留,系统可以阻止另 一个系统访问存储器,直至另一个系统重启并进入已知状态为止。
如果未使用电子开关,也不支持 SCSI 保留,那么集群将通过一种 “软件重启动”机制来提供数据完整性。“软件重启动”依靠故障系统
14
GreatTurbo Cluster Server 10 用户手册
对网络信息的响应功能。如果未通过网络收到通知,则不发生故障切换。 通过支持无电子开关和无 SCSI 保留型配置,GreatTurbo Cluster Server 10 可以支持所有不同类型的共享存储器。您可以灵活地选择最 佳的解决方案,来满足您对价格、数据完整性和可用性方面的要求。
最低硬件配置仅包括集群操作所需的硬件组件,具体如下:
两台运行集群服务的服务器
提供心跳通道和客户机网络访问的以太网连接
请参见最低集群配置举例查看这种类型的硬件配置。
最低硬件配置是最为经济高效的一种集群配置;但是它会出现多种单点故 障。比如,如果网络连接中断,两个集群节点不能互相通信,那么就不能通过网 络实现服务。此外,最低配置中也不包括电子开关,后者可以防范任何故障条件 下的数据损坏。因此,只有开发环境适合使用最低集群配置。
为提高可用性和防范组件故障,以及确保各种故障条件下的数据完整性,您 可以适当扩展最低配置。下表描述了您可以如何提高可用性和确保数据完整性:
防范目标 采取措施
磁盘故障 使用硬件 RAID 在多个磁盘间复制数据
存储互连故障 使用带有多条 SCSI 总线或光纤通道互连的 RAID 阵列配置
RAID 控制器故障 使用双 RAID 控制器提供到磁盘数据的冗余访问能力
心跳通道故障 在集群系统间建立点对点以太网或串行连接
电源故障 使用冗余不间断电源(UPS)系统
所有故障情况下的数据损坏 使用电子开关或 SCSI 保留命令
1.对策
15
GreatTurbo Cluster Server 10 用户手册
无单点故障硬件可在任何故障情况下确保数据的完整性,其配置包括以下组
件:
两台服务器:运行集群服务
系统间的以太网连接:提供心跳通道和客户机网络接入
双控制器 RAID 阵列,用以复制服务数据;应支持 SCSI 保留命令,这样
即无需使用电子开关。
两个电子开关,可使两个集群系统在故障切换过程中互相重启电源。
集群系统间的点对点以太网连接,负责提供冗余的以太网心跳通道。
集群系统间的点对点以太网连接,负责提供串行心跳通道。
两套 UPS 系统,负责提供高可用性电源。
关于此类硬件配置的举例,请参见无单点故障配置举例
集群硬件配置还包括其它计算环境中常见的可选硬件组件。例如,您还可以 添加网络交换机或网络集线器和控制台交换机,前者可以将集群系统连接到网 络,后者可简化多系统的管理,使您无需为每个集群系统单独配备监视器、鼠标 和键盘。
终端服务器是一类控制台交换机,通过它您可以连接到串行控制台并远程管 理多个系统。或者为了经济考虑,您可以使用 KVM(键盘、显示器和鼠标)交 换机,在多个系统之间共享一套键盘、监视器和鼠标。KVM 交换机适合于通过 图形化用户界面(GUI)执行管理任务的配置情形。
选择集群系统时,要确保它配有所需的 PCI 插槽、网络插槽、和硬件配置 所需要的串行口插槽。比如:无单点故障配置需要多个串行口和以太网端口。所 选的集群系统最好有两个以上的串行口。更多详情,请参见安装基本系统硬件
16
GreatTurbo Cluster Server 10 用户手册
2.1.1 集群硬件表
使用以下列表,确认集群配置所需的硬件组件。虽然在某些情况下集群可以 和其它产品一起使用,但我们仍要在列表中列出经过集群测试的专用产品。
硬件 数量 说明 要求
集群系统
2
GreatTurbo Cluster Server 10 支持 IA-32 硬件平台集
群系统必须提供足够的集群硬件配置所需的 PCI 插 槽、网络插槽和串行口。在每个集群系统中,磁盘设 备的名称必须一致,所以推荐使用具有相同 I/O 子系 统的系统。另外,推荐使用 CPU 速度为 450 Mhz , 内存为 256 MB 的系统。详见安装基本系统硬件
2. 集群系统硬件
硬件 数量 说明 要求
电子开关
电子开关能让每个集群系统对其它集群系统进行重
2
启电源。推荐使用RPS-10 电子开关(美国为 M/HD 模式,欧洲为 M/EC 模式), 可从
www.wti.com/rps-10.htm 获得。关于如何在集群中 使用电子开关,请参见配置电子开关
空调制解 调器线缆
加载托架
直接串行口线缆用于连接集群系统的串行口和电子
2
开关。这种串行连接可以让每个集群系统都能对另 一个系统重启电源。有的电子开关需要不同的线缆。
部分电子开关支持机架安装式配置。 只有使用机架
1
3. 电子开关硬件
17
只有使用电子 开关时才需要
安装式电子开 关时才需要
GreatTurbo Cluster Server 10 用户手册
硬件 数量 说明 要求
外部磁盘存 储附件
1
对于生产环境,我们推荐使用单启始端 SCSI 总线或单启始端光纤通道互连来连 接集群系统和单控制器(或双控制器) RAID 阵列。如果要使用单启始端总线或 互连, RAID 控制器必须有多个主机端 口,并能同时访问主机端口的所有逻辑单 元。如果某个逻辑单元能在两个控制器之 间进行故障切换,则该过程对操作系统必 须是透明的。
对于开发环境来讲,您可以使用多启始端 SCSI 总线或多启始端光纤通道互连来连 接集群系统和 JBOD 存储附件;单端口
否。但为了确保数据完 整性,强烈推荐使用。 如果有该硬件,我们推 荐采用 SCSI 保留支 持,将其作为最简单的 故障切换并保障数据 完整性的解决方案。
主机总线适 配器
2
RAID 阵列、或 RAID 控制器不能访问存
储附件端口上的所有逻辑端口。
您不能在集群中使用基于主机的产品、基 于适配器的产品或软件 RAID 产品,因为 这些产品通常不能很好地配合多系统接 入共享存储器。
详见配置共享磁盘存储器
如果要连接共享磁盘存储器,您必须在每 个集群系统的 PCI 插槽中安装一个并行 SCSI 或一个光纤通道主机总线适配器。
对于并行 SCSI 来讲,可以采用低电压差
只有采用了外部磁盘 存储附件时才需要
分(LVD)主机总线适配器。适配器带有
18
GreatTurbo Cluster Server 10 用户手册
硬件 数量 说明 要求
HD68 VHDCI 连接器。如果您需要支 持热插拔功能,就必须禁用主机总线适配 器的板载终端。推荐使用的并行 SCSI 主 机总线适配器有:
Adaptec 2940U2W、29160、29160LP、 39160 3950U2
采用英特尔 L440GX+主板的 Adaptec AIC-7896
SCSI 线缆
2
Qlogic QLA1080 QLA12160
Tekram Ultra2 DC-390U2W
LSI Logic SYM22915
推荐使用的光纤通道主机总线适配器为 Qlogic QLA2200
关于设备特性与配置信息,请参见主机总
线适配器的特性与配置要求及自适应主 机总线适配器的要求
68 SCSI 线缆将每台主机总线适配器 都连接到存储附件端口上。线缆带有
只用于并行 SCSI
HD68 VHDCI 接头。
外部 SCSI LVD 主动式 终结器
2
如果要支持热插拔功能,请将一个外部的 LVD 主动式终结器连接到已禁用内部终 端的主机总线适配器上。这样,您就可以 在不影响总线操作的情况下,将适配器从
19
只有并行SCSI保留配 置才需要具备外部终 端热插拔功能
GreatTurbo Cluster Server 10 用户手册
硬件 数量 说明 要求
终结器上断开。终结器配有 HD68 VHDCI 接头。
我们推荐使用带有 HD68 接头的外部直 通式终结器。您可从通过以下途径得到:
Technical Cable Concepts Inc.,350 Lear Avenue Costa Mesa California 92626714-835-1081)。
或者请访问 www.techcable.com 网站同 他们取得联系。部件说明和编号为:
TERM SSM/F LVD/SE Ext Beige 396868-LVD/SE
SCSI 终结器
光纤通道集 线器或交换 机
光纤通道线缆 2 到 6 光纤通道线缆用于将主机总线适配器连
2
1 2 除非您有带两个端口的存储附件,否则必
对于使用“out”端口并和单启始端 SCSI 总线连在一起的 RAID 存储附件(如: Flashdisk RAID 磁盘阵列)来讲,要终 止总线,就得把终结器连接到“out”端 口上。
须配备光纤通道集线器或交换机。集群系 统中的主机总线适配器可直接连在不同 的端口。
仅在采用SCSI配置和 需要终止时使用。
仅当采用了某些光纤 通道配置时才需要。
仅当采用了光纤通道 接到存储附件端口、光纤通道集线器或光 纤通道交换机。如果采用了集线器或交换 机,则需要额外的线缆把集线器或交换机 连接到存储适配器端口。
4. 共享磁盘存储硬件
20
配置的时候才需要,
GreatTurbo Cluster Server 10 用户手册
硬件 数量 说明 要求
网络接口 每个网络连接 1个 每个 网络连接需要一个安装在集群系统上的
网络接口。有关在集群中使用该驱动的信息请 参见 Tulip 网络驱动器的要求
网络交换机或 集线器
网络线缆 每个网络接口
使用1 根网络线 缆
1
网络交换机或集线器可 使您将多个系统连接
到某个网络上。
通用的网络线缆(比如,带有 RJ45 连接器的 线缆)可将每个网络接口连接到某台网络交换 机或网络集线器上。
5. 网络硬件
硬件 数量 说明 要求
网络接口 每个通道 2个 每条以太网心跳通道需要两个集群系统上
各安装一个网络接口。
网络交叉线缆 每个通道使
1
网络交叉线缆可将一个集群系统上的某网 络接口直接连接到另一个集群系统上的对 应网络接口上,从而创建一条以太网心跳 通道。
6. 点对点以太网心跳通道硬件
只在冗余以太网 心跳通道时才需 要
21
GreatTurbo Cluster Server 10 用户手册
硬件 数量 说明 要求
串行卡 每个串行通
道使用 2
空调制解 调器线缆
每个通道使 用 1
每个串行心跳通道在两个集群系统上各需要一个串 行口。您可使用多端口串行 PCI 卡来扩展串行口容 量。推荐您使用的多端口卡包括以下几种:
Vision Systems VScom 200H PCI 卡,它提供有两 个串行口,详情请访问 www.vscom.de(如欲了解 更多信息,请访问 Vscom 多端口串行卡)。
Cyclades-4YoPCI+卡,它提供有四个串行口,详情 请访问 www.cyclades.com
空调制解调器线缆可将一个集群系统上的某个串行 口直接连接到另一个集群系统上的某个对应串行 口,从而创建一条串行心跳通道。
只对串行 心跳通道 要求
7. 点对点串行心跳通道硬件
硬件 数量 说明 要求
终端服务器
RJ45 DB9
一台终端服务器可 帮助您从远程位置管理大量系
1
统。推荐您使用的终端服务器包括以下几种:
Cyclades 终端服务器, www.cyclades.com 上提 供。
NetReach Model CMS-16,由 Western Telematic 司提供推,请访问 www.wti.com/cms.htm
RJ45 DB9交叉线缆将每个集群系统上的串行口连
2
只对终端服
交叉线缆
接到一个与之对应的 Cyclades 终端服务器上。其它 类型的终端服务器可能需要不同的线缆。
22
务器要求
GreatTurbo Cluster Server 10 用户手册
硬件 数量 说明 要求
网络线缆
KVM 1
1
网络线缆可将一台终端服务器连接到与之对应的网 络交换机或集线器上。
KVM 可使多个系统共享一套键盘、显示器和鼠标。 推荐您使用的 KVM Cybex Switchview,详情请访 问 www.cybex.com.。将系统连接到交换机的线缆取 决于 KVM 的类型。
8. 控制台交换机硬件
硬件
UPS 系统 1 或 2 个 不间断的电源(UPS)系统 可提供一种高可用
Quantity
说明 要求
性电源。最理想选择是将用于共享存储附件和
只对终端服 务器要求
强烈推荐您使用
两个电子开关的电源线连接到冗余 UPS 系统 上。此外,UPS 系统必须能在足够长的时间段 内提供电压。
推荐您使用的 UPS 系统是 APC Smart-UPS 1000VA/670W,由 www.apc.com 网站提供。
9. UPS 系统硬件
2.1.2 最低集群配置举例
下表中介绍的硬件组件可以用来设置最低集群配置(使用一条多启始端 SCSI 总线并支持热插拔功能)。这种配置不能保证所有故障条件下的数据完整 性,因为它不包含电子开关。注意,这只是一个配置范例;您可以使用其它硬件 设置一种最低配置。
23
GreatTurbo Cluster Server 10 用户手册
两台服务器
两条带有 RJ45 接头的网 络线缆
每个集群系统包括以下硬件:
用于客户机访问的网络接口及以太网心跳通道
网络线缆用于将每个集群系统上的网络接口连接到用于客户机 访问和以太网心跳的网络。
10. 最低集群硬件配置举例
下图显示了最低集群硬件配置,包括以上表格中提到硬件和多启始端 SCSI 总线,同样也支持热插拔。被圈住的“T”表示内部(板载)或外部 SCSI 总线 终止。“T”上画斜杠表示终止已经被禁止。
带有热插拔的集群硬件最低配置
24
GreatTurbo Cluster Server 10 用户手册
2.1.3 无单点故障配置举例
下面表格中的组件,用于设置无单点故障集群配置,它包括两个单启始端 SCSI 总线和电子开关,以保证在所有故障条件下数据的完整性。注意,下面只 是一个范例,您也可以使用其它硬件设置无单点故障配置。
两个服务器
一个网络交换机 使用网络交换机,您可以把多个系统连接到网络中。
一个 Cyclades 终端服
每个集群系统包括以下硬件:
两个网络接口:
点对点以太网心跳通道客户机网络接入以及以太网心跳连接
3 个串行口:
把点对点串行心跳通道远程电子开关连接到终端服务器。
一个 Tekram Ultra2 DC-390U2W 适配器(终端已启用),用于共 享磁盘存储器连接。
使用终端服务器,您就可以在中心位置管理远程系统。
务器
3 条网络线缆 网络线缆可以把位于每个集群系统上的终端服务器和网络接口连接
到网络交换机。
2RJ45DB9接头 的双绞线
一条网络双绞线 网络双绞线可以把两个集群系统的网络接口连接在一起,创建一条
2 RPS-10 电子开关 在重启服务之前,电子开关允许每个集群系统给对方集群系统重启
RJ45 接头到 DB9 接头的双绞线可以把每个集群系统的串行口连接
Cyclades 终端服务器。
点对点以太网心跳通道。
电源。每个集群系统的电源线要连接在自己的电子开关上。
25
Loading...
+ 243 hidden pages