Sun Microsystems, Inc.
www.sun.com
Sun Fire 高階與中階系統動態重新配置
使用者指南
文件號碼:819-3190-10
2005 年 8 月, 修訂版 A
請將您對本文件的意見提交至: http://www.sun.com/hwdocs/feedback
Copyright 2005 Sun Microsystems, Inc., 4150 Network Circle, Santa Clara, California 95054, U.S.A. 版權所有。
Sun Microsystems, Inc. 對於本文件所述相關技術擁有智慧財產權。這些智慧財產權包含 http://www.sun.com/patents 上所列的一項或多項美
國專利,以及在美國或其他國家/ 地區擁有的一項或多項其他專利或申請中專利。但並不以此為限。
本文件及相關產品在限制其使用、複製、發行及反編譯的授權下發行。未經 Sun 及其授權人 (如果有) 事先的書面許可,不得使用任何方法、任
何形式來複製本產品或文件的任何部分。
協力廠商軟體,包含字型技術,其版權歸 Sun 供應商所有,經授權後使用。
本產品中的某些部分可能源自加州大學授權的 Berkeley BSD 系統的開發成果。UNIX 是在美國及其他國家/ 地區的註冊商標,已獲得 X/Open
Company, Ltd. 專屬授權。
Sun、 Sun Microsystems、 Sun 標誌、 AnswerBook2、 docs.sun.com、 Sun Fire 和 Solaris™ 是 Sun Microsystems, Inc. 在美國及其他國家的商標
或註冊商標。
所有 SPARC 商標都 SPARC International, Inc. 在美國和其他國家/ 地區的商標或註冊商標,經授權後使用。凡具有 SPARC 商標的產品都是採用
Sun Microsystems, Inc. 所開發的架構。
OPEN LOOK 與 Sun™ Graphical User Interface (Sun 圖形化使用者介面) 都是由 Sun Microsystems,Inc. 為其使用者與授權者所開發的技術。
Sun 感謝 Xerox 公司在研究和開發視覺化或圖形化使用者介面之概念上,為電腦工業所做的開拓性貢獻。Sun 已向 Xerox 公司取得 Xerox 圖形
化使用者介面之非獨占性授權,該授權亦適用於使用 OPEN LOOK GUI 並遵守 Sun 書面授權合約的 Sun 公司授權者。
本文件以其 「原狀」提供,對任何明示或暗示的條件、陳述或擔保,包括對適銷性、特殊用途的適用性或非侵權性的暗示保證,均不承擔任何
責任,除非此免責聲明的適用範圍在法律上無效。
請回收
目錄
前言 xi
1. DR 之簡介 1
DR 在 Sun Fire 高階與中階系統上 1
DR 的功能 2
共用 DR 作業簡介 2
如何使用 DR 3
熱插式硬體 4
自動式 DR (ADR) 4
需求容量 (COD) 4
Solaris 軟體上的 DR 5
網域上的 DR 執行 Solaris 9 作業系統或 Solaris 10 作業系統 5
網域中的 DR 執行 Solaris 8 作業系統 5
2. DR 概念 7
動態系統網域 8
附接點 8
附接點類別 9
高階系統附接點 9
中階系統附接點 10
iii
變更至附接點 10
狀態與情況 11
板與板插槽狀態 11
板情況 12
元件狀態 12
元件情況 13
可分離性 13
永久和非永久記憶體 13
複製重新命名 14
記憶體交錯 14
可修改之記憶體錯誤 14
靜止 15
安全暫停和非安全暫停裝置 16
I/O 板上的 DR 17
高階系統 I/O 板、Golden IOSRAM 、MaxCPU 與 hsPCI+ 17
中階系統 I/O 組件、PCI 與 CompactPCI 17
CompactPCI 之說明 18
一般 DR 板作業 19
連接作業 19
配置作業 19
中斷連線作業 20
取消配置作業 20
DR 概念圖示 20
3. 準備使用 DR 23
cfgadm(1M) 指令 23
rcfgadm(1M) 指令 (僅適用於高階 )2 5
檢查裝置類型、狀態和情況 25
顯示狀態、類型和情況 25
iv Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
顯示有關板插槽和元件的資訊 25
準備在網域裡使用 DR 26
顯示網域裡可用的板 26
顯示系統板狀況 26
顯示系統板狀況 26
測試板 27
測試系統板 27
測試 I/O 板 (僅適用於中階系統)2 8
為 DR 準備一張 I/O 板 (僅適用於高階系統) 29
4. DR 程序 - 從系統網域 31
增加系統板 31
新增系統板 32
連結系統板但不進行配置 32
配置已連線的系統板 33
刪除系統板 33
刪除系統板 33
取消系統板之配置但不中斷連線 34
刪除未配置之系統板 34
暫時刪除系統板 34
尋找含有網域永久記憶體之系統板 34
取消配置含有永久記憶體的系統板 35
搬移系統板 35
在網域之間搬移系統板 35
新增 I/O 板 36
新增 I/O 板 36
新增和連結 I/O 板但是不進行配置 37
配置已連結的 I/O 板 38
刪除 I/O 板 38
目錄 v
取消配置 I/O 板但不中斷連線 38
中斷取消配置的 I/O 板之連線 38
新增/ 刪除/ 追蹤記憶體和 CPU 39
配置系統板上的 CPU 39
配置系統板上的記憶體 39
配置系統板上所有的 CPU 和記憶體 39
取消配置系統板上的 CPU 40
取消配置系統板上的記憶體 40
取消配置系統板上所有的 CPU 和記憶體 40
追蹤取消配置記憶體的作業 40
PCI 配接卡作業 41
在 I/O 板上連結 PCI 插槽 41
配置 I/O 板上的 PCI 插槽 41
中斷 I/O 板的 PCI 插槽連線 42
取消配置 I/O 板上的 PCI 插槽 42
5. SMS DR 程序 - 從系統控制器 (SC) 執行 (僅限高階)4 3
顯示裝置資訊 44
顯示裝置資訊 44
顯示平台資訊 46
顯示平台資訊的方法 47
顯示板資訊 47
SC 狀態模型 47
showboards (1M) 指令 48
顯示板資訊的方法 49
新增板 49
新增一個板至一個網域 50
刪除板 50
從網域刪除一個板 51
vi Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
移動板 51
移動板的方法 52
更換作用中的系統板 52
更換作用中系統板的方法 52
SMS DR 指令和選項 53
addboard(1M) 53
deleteboard(1M) 55
moveboard(1M) 56
rcfgadm(1M)指令 57
scdrhelp(1M) 59
showboards(1M) 59
showdevices(1M) 60
showplatform(1M) 60
錯誤訊息說明系統 61
JavaHelp 內容表格 62
JavaHelp 索引 62
JavaHelp 搜尋 62
6. DR 內部 65
網域上的軟體元件 65
網域配置伺服器 (僅適用於高階)6 5
DR 驅動程式 66
重新配置座標管理員 66
系統事件架構 66
SC 上的軟體元件 (僅適用於高階 )6 7
DR 管理模型 67
DR 程序和常駐程式 67
網域配置代理程式 (DCA) 67
平台配置常駐程式 (PCD) ( 僅適用於高階)6 8
目錄 vii
網域 X 伺服器 (DXS) 68
A. DR 指令摘要 69
B. 疑難排解 71
取消配置作業失敗 71
系統板取消配置錯誤 72
無法取消配置記憶體與其他板記憶體交錯的主機板 72
無法取消配置已出現連結程序的 CPU 72
在取消配置所有記憶體前無法取消配置 CPU ( 僅適用於中階)7 2
無法取消配置板上有永久記憶體的記憶體 73
無法取消配置 CPU 74
無法中斷板連線 74
I/O 板取消配置失敗 74
裝置忙碌 74
I/O 裝置問題 75
RPC 或 TCP 逾時,或失去連線 76
配置作業失敗 76
記憶體配置錯誤 (僅適用於中階)7 6
I/O 板配置失敗 76
字彙表 77
索引 79
viii Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
表
表 1-1 主要 DR 作業 2
表 2-1 板與板插槽狀態 11
表 2-2 配置與取消配置板 11
表 2-3 板狀態僅在 SC 上可看見 12
表 2-4 板與板插槽情況 12
表 2-5 連線元件:配置或取消配置 12
表 2-6 CPU 或記憶體模組情況 13
表 3-1 cfgadm 選項 24
表 3-2 系統板狀況範例圖示 27
表 3-3 診斷程式等級 28
表 5-1 showdevices 輸出範例,CPU 44
表 5-2 showdevices 輸出範例,UltraSPARC IV+ (showdevices -d G )44
表 5-3 showdevices 輸出範例,過程中耗用的記憶體 45
表 5-4 showdevices 輸出範例, IO 裝置 45
表 5-5 Sun Fire 高階系統 SC 上的板狀態 48
表 5-6 addboard 指令選項 53
表 5-7 使用 addboard 指令所需要的特權 54
表 5-8 deleteboard 指令選項 55
表 5-9 使用 deleteboard 指令的特權 55
表 5-10 moveboard 指令選項 56
ix
表 5-11 使用 moveboard 指令所需的特權 57
表 5-12 rcfgadm 指令選項 58
表 5-13 使用 rcfgadm 指令所需的特權 58
表 5-14 showboards 指令選項 59
表 5-15 showdevices 指令選項 60
表 5-16 showplatform 指令選項 60
表 A-1 DR 作業和指令摘要 69
x Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
前言
本文件說明 Sun Fire™ E25K/E20K/15K/12K 系統上的動態重新配置 (DR) 軟體與 Sun
Fire E6900/E4900/6800/4810/4800/3800 系統執行 Solaris™ 作業系統 (Solaris OS) 。
本文件置換以下使用者指南:
「Sun Fire 高階系統動態重新配置使用者指南」
「Sun Fire 中階系統動態重新配置使用者指南」
「系統管理服務 (SMS) 動態重新配置使用者指南 」
在您閱讀本文件之前
本指南適用於熟悉 UNIX ® 系統,尤其是熟悉基於 Solaris 作業系統之 Sun Fire 高階與
中階系統平台管理員。如果您對這方面不熟悉,請先閱讀本系統隨附的 Solaris 作業系
統使用者和系統管理員文件資料,並考慮接受 UNIX 系統管理訓練。
使用 UNIX 指令
本文件不包括有關基本 UNIX ® 指令及程序的資訊,例如關閉系統、啟動系統及配置裝
置。請參閱以下來源資料以取得相關資訊:
系統隨附的軟體文件資料
Solaris 作業系統文件,其位於:http://docs.sun.com
xi
Shell 提示符號
Shell
C shell
C shell 超級使用者 電腦名稱 #
Bourne shell 與 Korn shell
Bourne shell 與 Korn shell 超級使用者
提示
電腦名稱 %
$
#
印刷排版慣例
1
字體
AaBbCc123
AaBbCc123
術語強調變數 新的字彙或術語、要強調的詞。
意義 範例
指令、檔案及目錄的名稱;螢幕畫
面輸出。
您所鍵入的內容 (與螢幕畫面輸出
相區別)。
將用實際的名稱或數值取代的指
令行變數。
請編輯您的 .login 檔案。
請使用 ls -a 列出所有檔案。
% You have mail.
%
Password:
這些被稱為 類別選項。
您必須是超級使用者才能執行此操作。
要刪除檔案,請鍵入 rm 檔案名稱 。
su
AaBbCc123
「 AaBbCc123」 用於書名及章節名稱。 「 Solaris 10 使用者指南」
1 瀏覽器中的設定可能會與這些設定不同。
xii Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
保留未譯的新的字彙或術語、要
強調的詞。
應謹慎使用 On Error 指令。
請參閱第 6 章 「資料管理」。
相關文件
檢視線上列出的文件:
http://www.sun.com/products-n-solutions/hardware/docs/
產品 書名
特定平台文件 「Sun Fire 中階系統平台管理手冊」
「Sun Fire 高階系統管理手冊」
「系統管理服務 (SMS) 管理指南」
「SMS Reference Manual 」
「特定平台版本說明」 「Solaris 8 or 9 Release Notes Supplement for Sun Hardware 」
「Solaris 10 版本說明」
「系統管理服務 (SMS) 版本說明」
Solaris 指令,包括
cfgadm(1M)
「Solaris Command Reference Manual 」
Sun 功能
文件
支援與訓練
「Sun Management
Center 」
「Capacity on Demand
(COD) 」
「Sun Management Center Userís Guide 」
「系統管理服務 (SMS) 管理指南」
文件、支援與訓練
URL
http://www.sun.com/documentation/
http://www.sun.com/supportraining/
說明
下載 PDF 與 HTML 文件與訂購出版文件
取得技術支援、下載修補程式與得知 Sun
課程
前言 xiii
協力廠商文件
Sun 對於本文件中所提及之協力廠商網站的使用不承擔任何責任。Sun 對於此類網站或
資源中的 (或透過它們所取得的) 任何內容、廣告、產品或其他材料不做背書,也不承
擔任何責任。對於因使用或依靠此類網站或資源中的 (或透過它們所取得的) 任何內容、
產品或服務而造成的或連帶產生的實際或名義上之損壞或損失,Sun 概不負責,也不承
擔任何責任。
Sun 歡迎您提出寶貴意見
Sun 致力於提高文件品質,因此誠心歡迎您提出意見與建議。請至下列網址提出您對本
文件的意見:
http://www.sun.com/hwdocs/feedback
請隨函附上文件書名與文件號碼:
「Sun Fire 高階與中階系統動態重新配置使用者指南 」,文件號碼 819-3190-10 。
xiv Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
第 1 章
DR 之簡介
Sun Fire 高階與中階系統列在前言可分為不同網域,每個功能就如個別的電腦,執行各
自的作業系統 (請參閱第 8 頁「動態系統網域」 )。動態配置 (DR) 功能讓您可在網域仍
在執行時,啟動或停用網域的系統板、I/O 板與特定元件。
部份 DR 是在網域的 Solaris 軟體上執行,且透過 cfgadm (1M) 指令來管理。另一部份
是在系統控制器 (SC) 上執行。
本章涵蓋以下主題:
第 1 頁「DR 在 Sun Fire 高階與中階系統上」
第 2 頁「DR 的功能」
第 3 頁 「如何使用 DR 」
第 4 頁 「熱插式硬體」
第 4 頁 「自動式 DR (ADR) 」
第 4 頁 「需求容量 (COD) 」
第 5 頁「Solaris 軟體上的 DR」
DR 在 Sun Fire 高階與中階系統上
中階系統上的系統板有時稱為 CPU/ 記憶體板 。其與高階系統上的板相同。此文件專用
規定系統板 。系統板可在高階與中階平台間互換。
高階系統 I/O 板和中階系統 I/O 組件有相同處也有相異處。此文件中兩個都使用規定
I/O 板,但是在釐清時除外。
在高階系統 I/O 板上的 I/O 匯流排支援 PCI 或 hsPCI+ 卡與 MaxCPU 板。MaxCPU
板可插入插槽 1 而且包含兩個 CPU 但沒有記憶體。
中階系統 I/O 板支援 PCI 或 CompactPCI 卡。
此文件在說明 hsPCI+ 與 CompactPCI 卡時使用通用規定 PCI ,只有在釐清需求時不
同。
1
DR 的功能
您可以使用 DR 的作業有:
顯示系統或 I/O 板與某些元件的狀況與狀態可幫這您準備 DR 作業。
測試實況板。
網域仍在執行時,從網域邏輯分離 ( 電子絕緣) 系統或 I/O 板,以準備搬移至另一個
網域或是從系統上移除。分離作業有時稱為刪除板 動作。
在網域仍在執行時,邏輯附加 系統或 I/O 板至網域、增加來源或置換已移除的板。
附加作業有時稱為增加板 動作。
在系統板上配置或取消配置 CPU 或記憶體模組以控制網域的電源或容量或是隔離錯
誤的元件。
啟動或停用 PCI 卡或相關之元件與插槽。
例如:您可以 DR 分離錯誤系統板,然後使用系統的熱槽式功能以將其實體移除。在插
入已修理的板或是置換的板,您可以使用 DR 配置板到網域中。如果您使用 DR 功能增
加或移除系統板或元件,DR 永遠都會將板或元件置於已知的配置狀態。請參閱第 11
頁 「狀態與情況」以取得更多關於系統板與元件的配置狀態資訊。
您也可以指定系統板或 I/O 板到不同的網域以載入平衡或提供其他功能給指定作業。
共用 DR 作業簡介
DR 軟體讓您可執行下列作業:
在網域間增加、刪除或搬移系統板或 I/O 板。
在系統板上配置或取消配置 CPU 或記憶體模組。
在 I/O 板上連接與配置或結束連線與取消配置 PCI 卡。
支援上述動作的 DR 作業的四個主要類型為連線、配置、取消配置與結束連線。
表 1-1 主要 DR 作業
作業 說明
連線 提供電源至固定板的插槽然後啟動板溫度的系統監視。
配置 使作業系統指定板的功能角色,並針對板以及板的附接裝置載入裝置的驅動
程式。配置作業包含連線作業。
取消配置 從作業系統邏輯分離板,並使相關的裝置驅動程式離線。環境監視功能會繼
續,但系統無法使用板上的裝置。
中斷連線 關閉至插槽的電源,固定板並停止監視板。中斷連線作業包含取消配置作業。
2 Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
備註 – 若系統板在使用中,在您關閉電源前,請中止使用並從網域中斷連線。在插入
並開啟全新或升級的系統板之電源後,請利用作業系統連接其附接點 (請參閱第 8 頁
「附接點」 ) 並將其配置使用。如需更多 DR 作業的相關資訊,請參閱第 19 頁 「一般
DR 板作業」。
如何使用 DR
您可以使用下列方法初使化 DR 作業:
使用 Sun™ Management Center 軟體提供的 GUI。詳情請參閱 「 Sun
Management Center 使用者指南」。
與適合的選項一同使用 Solaris 指令 cfgadm (1M) 並在網域中標幟。第 31 頁「 DR
程序 - 從系統網域」說明如何使用 cfgadm 與其 DR 相關選項,以作業組織。
在高階系統,請在 SC 上使用系統管理服務 (SMS) DR 指令 rcfgadm(1M) 。
rcfgadm(1M) 可取得相同的 DR 相關選項,如 cfgadm(1M)。主要的不同之處為
rcfgadm(1M) 常要求其他 -d domain_id 參數。詳情請參閱 rcfgadm(1M),參閱第
57 頁「rcfgadm(1M)指令」。
在高階系統,請在 SC 上使用 SMS DR 指令 (rcfgadm (1M) 除外 )。SMS DR 指令包
括 addboard (1M)、moveboard(1M) 、deleteboard(1M) 、) 及其他。您可以在
第 43 頁「SMS DR 程序 - 從系統控制器 (SC) 執行 (僅限高階)」的 「SMS
Reference Manual」找到這些指令的相關指令,或是在執行 SMS 軟體的 SC 視窗執
行 man (1) 指令。
在中階系統執行 DR 時您可能需要執行一個或多個中階系統 SC 指令 - 例如:
showplatform 與 showboards - 在 DR 作業之前或期間。其功用是簡要說明何處適
合此文件,您可以在 「Sun Fire Midrange Systems Controller Command Reference
Manual 」中找到更多相關資訊。
注意 – 中階系統 SC 指令 addboard 和 deleteboard 不是高階系統 SMS 指令相同名
稱的 DR 指令。您只有在網域關閉電源時才可以安全使用這些中階系統 SC 指令。如需
更多這些與其他中階系統 SC 指令的相關資訊,請參閱 「Sun Fire Midrange Systems
Controller Command Reference Manual 」。
第 1 章 DR 之簡介 3
熱插式硬體
熱插式 裝置可從執行中的系統做邏輯 連線或中斷連線。(熱插式 裝置可從執行中的系統
做實體連線或中斷連線。) 熱插式板與模組具有特殊的連接器,可在資料腳位建立聯繫
之前,供應電源給板或模組。系統正在運作時,具有熱插式連接器的板及裝置可以插入
或移除,也就是,其為熱交換式。
系統板與 I/O 板為熱插入式裝置。但是,有些裝置,如週邊設備的電源供應器,不是
熱插式模組而且無法在系統運作時中斷連線。
自動式 DR (ADR)
自動式 DR (ADR) 讓您的應用程式在沒有使用者互動下執行 DR 作業。ADR 使用增強
的 DR 架構,其包括重新配置座標管理員 (RCM) 及系統事件功能 (sysevent)。RCM
使應用程式指定可載入模組註冊回呼。回呼可在 DR 作業前執行準備作業、期間可執行
錯誤復原動作,而在之後可清除。系統事件架構可使應用程式為系統事件註冊並接收事
件的通知。
備有 RCM 與 sysevent 的 ADR 介面可使應用程式自動在取消配置前放棄來源,並且
取得配置在網域中的新來源。
應用程式可從網域執行 cfgadm (1M) 指令,其稱為本機 ADR 。此外,在高階系統中,
應用程式可從 SC 執行 SMS DR 指令,其稱為全域 ADR 。在高階系統您可以使用全域
ADR 從一個網域將系統板搬移至另一個、配置熱交換板至網域中,以及從網域移除系
統板。
需求容量 (COD)
需求容量 (COD) 選項提供您安裝在 Sun Fire 系統的 COD 系統板上其他 CPU 來源。
Sun Fire COD 系統可有兩種標準的組合及安裝的 COD 系統板。系統中每一個網域至
少需要一個使用中的 CPU 。
您可以使用 DR 搬移 COD 板到網域中或將其搬出網域,以相同方法可以搬移標準系
統板。但是只有在購買使用權利 (RTU) 授權後才能在 COD 板上使用 CPU。每個
COD RTU 授權讓您接收 COD RTU 授權金鑰以啟動單一系統之 COD 板上 CPU 的
指定數目。
4 Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
在您使用 DR 配置 COD 板到網域時,請確定有足夠的 RTU 授權至目標網域,以啟動
COD 板上的每個使用中 CPU。如果在您常式增加 COD 板時,目標網域沒有足夠 RTU
授權,系統會顯示狀況訊息表示無法啟動網域中的每個 CPU 。
如需更多關於高階系統的 COD 選項之相關資訊,請參閱 「系統管理服務 (SMS) 管理
指南」。
Solaris 軟體上的 DR
此文件說明最新的 DR 執行版本,或是與最新的 Solaris 8 、Solaris 9 和 Solaris 10 軟體
版本。請確認檢查 http://sunsolve.sun.com 的 SunSolve
修補程式。
備註 – Sun Microsystems 建議您在系統上執行最新的 Sun 軟體版本,以取得最高效能
及最新強化的優點。
下節說明與指定 Solaris 版本一同使用 DR 的特定考量。
SM
資料庫以取得最新的
網域上的 DR 執行 Solaris 9 作業系統或 Solaris 10
作業系統
Solaris 10 3/05 HW1 作業系統是 Solaris 10 軟體的第一個版本,可支援 UltraSPARC®
IV+ 系統板,而 Solaris 9 9/05 作業系統是 Solaris 9 軟體的第一個版本。您可以增加
UltraSPARC IV+ 板至網域與較舊的板一同配置,但是您無法使用 DR 增加所有以
UltraSPARC IV+ 板啟動之較舊的板至網域中。(如果您先關閉網域,您可以增加所有以
UltraSPARC IV+ 板啟動之較舊的板至網域中。)
如需其他關於 Sun Fire 中階系統上之 UltraSPARC IV+ 板的網域限制,請參閱韌體版
本說明 5.19 的「Sun Fire 中階系統平台管理手冊」。
網域中的 DR 執行 Solaris 8 作業系統
Solaris 8 2/02 作業系統是 Solaris 8 軟體的第一個版本可支援 I/O 板的 DR。此外,在
Sun Fire 高階系統的系統管理服務 (SMS) 1.3 是 SMS 的第一個版本可完全支援 DR。您
可以在網域中安裝修補程式與新的核心更新,以及在高階伺服器系統控制器 (SC) 中安
裝 SMS 軟體的最新版本,以啟動網域中的 DR 的完全功能以執行較 Solaris 8 2/02 作
業系統為早的軟體。Solaris 8 作業系統不支援 UltraSPARC IV+ 板。
第 1 章 DR 之簡介 5
6 Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
第 2 章
DR 概念
本章說明在您嘗試使用 DR 前應瞭解的 DR 概念。
如果您計劃在高階伺服器的系統控制器 (SC) 上執行 DR 作業,請務必閱讀第 5 章、第 43
頁「SMS DR 程序 - 從系統控制器 (SC) 執行 (僅限高階)」。本章內的某些資訊將會與
第 5 章重複,不過所採用的視角並不相同。閱讀這兩章內容可以對 DR 功能有較透徹的
瞭解。
本章節涵蓋以下主題:
第 8 頁 「動態系統網域」
第 8 頁 「附接點」
第 11 頁 「狀態與情況」
第 13 頁 「可分離性」
第 13 頁 「永久和非永久記憶體」
第 15 頁 「靜止」
第 16 頁 「安全暫停和非安全暫停裝置」
第 17 頁「I/O 板上的 DR」
第 19 頁 「一般 DR 板作業」
第 20 頁「DR 概念圖示」
備註 – UltraSPARC IV+ 板包括兩個核心 CPU 。此文件中 CPU 或處理器的參照可能是
指單一核心或雙核心類型,而且所有程序都可套用在這兩個類型上。
7
動態系統網域
Sun Fire 系統可被劃分為網域。每個網域以指定給網域的系統板插槽為基礎。此外,每
個網域在硬體分割區中有各自的電源,如此當其中一個網域發生錯誤時,才不會影響到
伺服器上的其他網域。
每個網域配置是由常駐在 SC 上的配置資料庫決定的。配置資料庫 - 在高階系統中,
平台配置資料庫 (PCD) - 控制系統板插槽要如何邏輯分割至網域中。網域配置代表預
定的網域配置。因此,網域配置包括空插槽及已插入之插槽。實體網域是由邏輯網域決
定。
提供給網域的可用的插槽數目由 ACL 控制。ACL 是高階系統網域上可用元件清單,或
是中階系統網域存取控制清單的簡稱。所有網域的 ACL 在 SC 上進行維護。在您可以
變更其狀態前,在網域中必須指定插槽或是有可用的插槽。將插槽指定給網域後,在指
定網域上可看到該插槽,但其他網域則無法看見它。反過來說,在您指定並將插槽連線
至另一個網域前,必須先取消指定插槽,並中斷該插槽與原網域的連線。
邏輯網域由數個屬於網域的插槽組成。而實體網域則由數個實體上相互連接的板組成。
插槽即使不是實體網域的一部分,也能成為邏輯網域的成員。啟動網域後,您可以選擇
將主機板及空插槽指定給邏輯網域,或選擇取消指定;然而,直到作業系統的要求下,
才能允許成為實體網域的一部分。未指定給任何網域的系統板或插槽可供所有網域使
用。這些板可由平台管理員指定給網域,但是,ACL 可在 SC 上設定讓有適合權限的
使用者指定可用板到網域中。
附接點
附接點 是板或裝置的統稱,也就是固定板或裝置的插槽,以及任何在其中的元件。插槽
有時稱為插座 。
Sun Fire 系統支援下列附接點:
板附接點 - 系統或 I/O 板插槽、在該插槽中的板以及任何連接到板的裝置。
PCI 附接點 - PCI 卡與將其固定到 PCI 匯流排之附接。
元件附接點 - CPU 或記憶體模組,以及其與系統板的連接。元件附接點有時稱為
動態附接點。
備註 – 許多使用者只注意板及裝置狀況的變更。因此,為求簡要,此文件中某些程序
所指之板附接點則簡稱為板、PCI 附接點則為 PCI 卡,而元件附接點則為 CPU 或記憶
體模組。當簡稱可能引起混淆時,則使用適當的名稱。
8 Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
佔取是指板與其附接裝置之組合,包括任何由介面電纜連接的外部儲存裝置。
板插槽可依照插槽編號命名或不命名 (例如在 SCSI 鏈中 )。
DR 可辨識附接點名稱之類型:
實體附接點 - 軟體驅動程式及插槽的位置。
邏輯附接點 - 由系統建立的簡稱,所指的是實體附接點。
要取得所有可用邏輯附接點清單,請使用以下網域中的指令:
# cfgadm -l
附接點類別
Sun Fire 系統支援下列附接點類別。兩個類別 DR 使用者需要知道的是 sbd 與 pci 。
sbd - 系統板、CPU 與記憶體模組,以及 CPU 和記憶體模組至系統板之連線。另
有,I/O 板、PCI 匯流排及 PCI 匯流排至 I/O 板之連線。
pci - PCI 卡,其連接至 PCI 匯流排。
要檢視附接點清單與其相關的板類型,請以超級使用者的身份執行以下指令:
# cfgadm -s -a “cols=ap_id:class”
高階系統附接點
高階系統上實體附接點名稱之範例:
/devices/pseudo/dr@0:SBx (針對插槽 0 中的系統板 )
/devices/pseudo/dr@0:IOx (針對插槽 1 中的 I/O 板)
0 是節點 0 (零 )、 SB 是系統板、 IO 是 I/O 板,而 x 代表板數目或特定板之擴展器
其中
數目。系統板與 I/O 板之數目為 0 至 17 。
備註 – 系統板僅在插槽 0 安裝。I/O 板與 Max CPU 板僅安裝在插槽 1 中。
第 2 章 DR 概念 9
高階系統之邏輯附接點以下列兩種形式的其中一種呈現:
SBx (針對系統板 )
IOx (針對 I/O 板或 Max CPU 板)
中階系統附接點
中階系統上實體附接點名稱之範例:
/devices/ssm@0,0:N0.SBx
(針對系統板 )
/devices/ssm@0,0:N0.IBx (針對 I/O 板 )
N0 是節點 0 (零 )、 SB 是系統板、 IB 是 I/O 板,而 x 為槽編號 (系統板是 0 到 5,
其中
而 I/O 板為 6 到 9) 。
中階系統上的邏輯附接點以下列兩種形式中的一種形式呈現:
N0.SBx (針對系統板 )
N0.IBx (針對 I/O 板 )
變更至附接點
您可以使用 cfgadm (1M) 指令變更附接點。您可以:
變更附接點的狀態。特定的 cfgadm (1M) 作業為:
configure
unconfigure
connect
disconnect
變更附接點相關板之可用性。特定的 cfgadm (1M) 作業為:
assign
unassign
變更附接點板插槽之情況。特定的 cfgadm (1M) 作業為:
poweron
poweroff
test
如需更多關於狀態之資訊,請參閱以下章節。如需更多附接點之相關資訊,請參閱
cfgadm (1M) 線上手冊。
10 Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
狀態與情況
此節說明板、插槽、元件與附接點之狀態和情況。
狀態可為板插槽或其佔取之作業狀況。
情況是指附接點的作業狀況。
cfgadm (1M) 指令可顯示九種狀態與情狀的類型。如需更多資訊,請參閱第 12 頁「元
件狀態」與第 13 頁 「元件情況」。
備註 – 下列關於板與板插槽之資訊也可套用在 PCI 卡和將其固定之 PCI 匯流排。
板與板插槽狀態
板插槽中沒有板時,其狀態為空缺。插槽中沒有板時,板的狀態可為中斷連線或連線。
表 2-1 板與板插槽狀態
狀態 說明
empty
disconnected
connected
插槽中沒有板。
插槽中的板可從系統匯流排切斷連線。板可不需關閉電源即處於切斷
連線狀態。然而,在將板從插槽移除前須先關閉板電源並切斷連線。
新插入的板是中斷連線的狀態。
啟動插槽中的板電源並連線到系統匯流排。您只能在連線狀態下檢視
板的元件。
注意 – 實體移除在連線狀態,或接上電源及中斷連線狀態中的板,會使作業系統當機,
並會導致系統板永久損壞。
板在連線狀態可為配置或取消配置。板在中斷連線下永遠為取消配置。
表 2-2 配置與取消配置板
名稱 說明
configured
unconfigured
板可以在 Solaris 軟體下使用。
板在 Solaris 軟體下不可使用。
第 2 章 DR 概念 11
下列狀態僅在 SC 上可以看見:
表 2-3 板狀態僅在 SC 上可看見
名稱 說明
Available
Assigned
Active
插槽,其中可能有或沒有板,且沒有指定到任何特定網域。
插槽,其中可能有包含或沒有包含板,其屬於網域,但是未配置硬體
使用它。
指定給插槽中的板之網域正在使用板。您無法重新指定作用中的板。
板情況
板的情況會是以下三種狀況之一:未知、正常或錯誤。插槽可能指定為無法使用。
表 2-4 板與板插槽情況
名稱 說明
unknown
ok
failed
unusable
板未受測試。
板可作業。
板未通過測試。
板插槽無法使用。
元件狀態
和板不同,CPU 或記憶體模組不可以個別連線或中斷連線。因此,所有此類元件都在
連線狀態。
連線元件可為配置或取消配置。
表 2-5 連線元件:配置或取消配置
名稱 說明
configured
unconfigured
12 Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
元件可以在 Solaris 作業系統下使用。
元件不可以在 Solaris 作業系統下使用。
元件情況
CPU 或記憶體模組為未知、正常或錯誤。
表 2-6 CPU 或記憶體模組情況
名稱 說明
unknown
ok
failed
元件未受測試。
元件可作業。
元件未通過測試。
可分離性
可分離裝置要符合下列要項:
裝置必須支援 DDI_DETACH 。
重要資源必須具有備援,或可透過替代路徑存取。CPU 與記憶體組可以是備援的重
要資源。例如,磁碟機就是重要資源的一種,可以透過替代路徑存取。
某些板無法分離,因為無法移動這些板的資源。例如,若網域只有一個 CPU 板,則無
法分離該 CPU 板。如果 I/O 板控制啟動磁碟機,則為不可分離。
如果 I/O 板沒有替代路徑,您可以執行下列項目:
將磁碟鏈置於分離的 I/O 板上。接著即可分離第二個 I/O 板。
透過第二個 I/O 板將第二個路徑加入裝置,以使 I/O 板分離,而不會失去第二個磁
碟鏈的存取功能。
備註 – 如果您不確定裝置是否為可分離,請連絡您的 Sun 服務代表。
永久和非永久記憶體
在刪除板之前,作業系統須先空出板上的記憶體。空出板是指將其非永久記憶體的內容
刷新至交換空間,並複製其永久記憶體的內容 (也就是核心和 OpenBoot™ PROM 軟體)
到另一個記憶體板上。
欲重置永久記憶體,網域上的作業系統需暫時靜止。靜止的時間長短取決於網域 I/O
配置和執行的工作量。
第 2 章 DR 概念 13
欲使用永久記憶體來分離板只能在作業系統靜止時進行。因此,您應該清楚永久記憶
體的常駐位置,以免嚴重影響到網域的作業。若要顯示永久記憶體的大小,請使用
cfgadm (1M) 指令及其 -av 選項。若要空出具有永久記憶體的板,作業系統必須找出
相當大區塊的可用記憶體 (即目標記憶體),以複製永久記憶體的目前內容 (即來源記
憶體)。
複製重新命名
使用者程序可將其分頁至交換裝置以釋放記憶體。但是 Solaris 核心常駐在永久記憶體
中,所以無法釋放。反而,cfgadm 會使用複製重新命名 技術來釋放記憶體。在作業系
統辨別適合的目標板後 - 其有足夠記憶體可容納搬移的永久記憶體 - DR 軟體會執行
以下步驟:
1. 將記憶體分頁至交換以空出目標板上的記憶體。
2. 靜止作業系統。
3. 從來源版複製內容 (永久記憶體) 至目標板。此為分割區的複製 部份。
4. 重新編排硬體程式至來源與目標板之交換記憶體位址範圍。此為分割區的重新命名
部份。
5. 從作業系統靜止的狀態中將其釋放。
記憶體交錯
如果系統記憶體與多個系統板交錯,系統板則無法動態重新配置。不論記憶體是否交
錯,PCI 卡與 I/O 板都可動態重新配置。
如需更多關於高階系統中記憶體交錯之資訊,請參閱 「Sun Fire 高階系統管理手冊」。
關於中階系統,請參閱 setupdomain 指令的 interleave-scope 參數;該指令在
「Sun Fire Midrange Systems Platform Administration Manual 」 和「Sun Fire
Midrange System Controller Command Reference Manual 」。
可修改之記憶體錯誤
可修改之記憶體錯誤是指系統板上的記憶體 - 其為一個或多個雙排記憶體模組
(DIMM),或硬體互連之分割區 - 可能有錯誤且須置換。當 SC 偵測到可修正之記憶體
錯誤時,會啟動一個記錄停止傾印作業,以儲存診斷資料,這個操作會影響 DR 作業。
在因為可修正之記憶體錯誤而發生記錄停止時,可在啟動 DR 作業前完成記錄停止傾
印。
14 Sun Fire 高階與中階系統動態重新配置使用者指南 • 2005 年 8 月
如果錯誤元件引起可修改記憶體錯誤之重覆報告,SC 會執行多重記錄停止傾印。如果
發生此情況,您應該暫時停用 SC 上的傾印偵測機器,讓目前的傾印完成,然後初始化
DR 作業。在完成 DR 作業後,請重新啟動傾印偵測。
靜止
在取消配置有永久記憶體 (OpenBoot™ PROM 或核心記憶體) 之系統板上的作業時,
作業系統會短暫中止,這種狀況稱為作業系統靜止 。在此重要的作業階段中,網域上所
有作業系統及裝置活動必須暫停幾秒鐘。
要判定板是否具有永久記憶體的快速方法可使用下列指令:
# cfgadm -av | grep permanent
系統會回應下列輸出,說明中接系統上的系統板 0 ( 零):
N0.SB0::memory connected configured ok base address 0x0, 4194304
KBytes total, 668072 KBytes permanent
若作業系統無法達到靜止狀態,該環境會顯示無法靜止的原因,其中可能的原因如下:
執行緒無法暫停。
作業系統無法暫停現有的裝置。
備註 – 即時程序不會防礙靜止程序的執行。
導致程序暫停失敗的情況,一般是暫時的現象。請檢查任何錯誤的起因,如果作業系統
面臨錯誤而中止程序,請再次嘗試作業。
在靜止期間,系統會停止不動並且不會回應外在事件,如網路封包。靜止的持續時間視
下列兩個因素而定:需要停止多少 I/O 裝置和執行緒;需要複製多少記憶體。通常
I/O 裝置的數量會決定所需的靜止時間,因為 I/O 裝置必須暫停和取消暫停。靜止狀
態通常會持續超過兩分鐘。
因為靜止具有顯著的影響,cfgadm 會先請求確認再實行靜止。若您輸入:
# cfgadm -c unconfigure N0.SB0
第 2 章 DR 概念 15