Page 1
Sun Fire™ V20z および
Sun Fire V40z サーバー
障害追跡手法および診断マニュアル
Sun Microsystems, Inc.
www.sun.com
Part No. 819-2928-12
2005 年 7 月 , Revision A
コメントの送付 : http://www.sun.com/hwdocs/feedback
Page 2
Copyright 2005 Sun Microsystems, Inc., 4150 Network Circle, Santa Clara, California 95054, U.S.A. All rights reserved.
米国 Sun Microsystems, Inc. (以下、米国 Sun Microsystems 社とします) は、本書に記述されている技術に関する知的所有権を有していま
す。これら知的所有権には、http://www.sun.com/patents に掲載されているひとつまたは複数の米国特許、および米国ならびにその他の
国におけるひとつまたは複数の特許または出願中の特許が含まれています。
本書およびそれに付属する製品は著作権法により保護されており、その使用、複製、頒布および逆コンパイルを制限するライセンスのもと
において頒布されます。サン・マイクロシステムズ株式会社の書面による事前の許可なく、本製品および本書のいかなる部分も、いかなる
方法によっても複製することが禁じられます。
本製品のフォント技術を含む第三者のソフトウェアは、著作権法により保護されており、提供者からライセンスを受けているものです。
本製品の一部は、カリフォルニア大学からライセンスされている Berkeley BSD システムに基づいていることがあります。UNIX は、
X/Open Company Limited が独占的にライセンスしている米国ならびに他の国における登録商標です。
本製品は、株式会社モリサワからライセンス供与されたリュウミン L-KL (Ryumin-Light) および中ゴシック BBB (GothicBBB-Medium) の
フォント・データを含んでいます。
本製品に含まれる HG 明朝 L と HG ゴシック B は、株式会社リコーがリョービイマジクス株式会社からライセンス供与されたタイプフェー
スマスタをもとに作成されたものです。平成明朝体 W3 は、株式会社リコーが財団法人 日本規格協会 文字フォント開発・普及センターから
ライセンス供与されたタイプフェースマスタをもとに作成されたものです。また、HG 明朝 L と HG ゴシック B の補助漢字部分は、平成明
朝体W3 の補助漢字を使用しています。なお、フォントとして無断複製することは禁止されています。
Sun 、Sun Microsystems 、Java 、AnswerBook2 、docs.sun.com は、米国およびその他の国における米国 Sun Microsystems 社の商標もしく
は登録商標です。サンのロゴマークおよび Solaris は、米国 Sun Microsystems 社の登録商標です。
すべての SPARC 商標は、米国 SPARC International, Inc. のライセンスを受けて使用している同社の米国およびその他の国における商標また
は登録商標です。SPARC 商標が付いた製品は、米国 Sun Microsystems 社が開発したアーキテクチャーに基づくものです。
OPENLOOK、 OpenBoot、 JLE は、サン・マイクロシステムズ株式会社の登録商標です。
ATO K は、株式会社ジャストシステムの登録商標です。ATOK 8 は、株式会社ジャストシステムの著作物であり、ATO K8 にかかる著作権そ
の他の権利は、すべて株式会社ジャストシステムに帰属します。 AT OK Ser ve r/ ATO K1 2 は、株式会社ジャストシステムの著作物であり、
ATOK Server/ATOK12 にかかる著作権その他の権利は、株式会社ジャストシステムおよび各権利者に帰属します。
本書で参照されている製品やサービスに関しては、該当する会社または組織に直接お問い合わせください。
OPEN LOOK および Sun™ Graphical User Interface は、米国 Sun Microsystems 社が自社のユーザーおよびライセンス実施権者向けに開発
しました。米国 Sun Microsystems 社は、コンピュータ産業用のビジュアルまたは グラフィカル・ユーザーインタフェースの概念の研究開
発における米国 Xerox 社の先駆者としての成果を認めるものです。米国 Sun Microsystems 社は米国 Xerox 社から Xerox Graphical User
Interface の非独占的ライセンスを取得しており、このライセンスは米国 Sun Microsystems 社のライセンス実施権者にも適用されます。
U.S. Government Rights—Commercial use. Government users are subject to the Sun Microsystems, Inc. standard license agreement and
applicable provisions of the FAR and its supplements.
本書は、「現状のまま」をベースとして提供され、商品性、特定目的への適合性または第三者の権利の非侵害の黙示の保証を含みそれに限
定されない、明示的であるか黙示的であるかを問わない、なんらの保証も行われないものとします。
本書には、技術的な誤りまたは誤植のある可能性があります。また、本書に記載された情報には、定期的に変更が行われ、かかる変更は本
書の最新版に反映されます。さらに、米国サンまたは日本サンは、本書に記載された製品またはプログラムを、予告なく改良または変更す
ることがあります。
本製品が、外国為替および外国貿易管理法 ( 外為法) に定められる戦略物資等 (貨物または役務) に該当する場合、本製品を輸出または日本国
外へ持ち出す際には、サン・マイクロシステムズ株式会社の事前の書面による承諾を得ることのほか、外為法および関連法規に基づく輸出
手続き、また場合によっては、米国商務省または米国所轄官庁の許可を得ることが必要です。
原典: Sun Fire V20z and Sun Fire V40z Servers-Troubleshooting Techniques and Diagnostics Guide
Part No: 817-7184-12
Revision 01
Please
Recycle
Page 3
目次
はじめに xi
お読みになる前に xi
UNIX コマンド xi
書体と記号について xii
関連マニュアル xii
マニュアル、サポート、およびトレーニング xiii
Sun 以外の Web サイト xiv
コメントをお寄せください xiv
1. 予防のための保守 1
成功のためのガイドライン 1
変更の管理 2
システムの目視検査 3
外部の目視検査 3
内部の目視検査 3
障害追跡用ダンプユーティリティー 4
2. 診断 7
SP ベースの診断 8
SP ベースの診断の開始方法 8
iii
Page 4
CD ベースの診断 9
CD ベースの診断のインストールおよび実行 9
Version 2.2.0.0 以降の BIOS の場合 10
2.2.0.0 より前のバージョンの BIOS の場合 10
CD ベースの診断のインストール 10
オプションメニューからの CD ベースの診断の実行 11
メニューオプション 11
CD ベースの診断への遠隔アクセス 12
使用可能な診断テストおよびモジュール 14
診断テストの実行 15
テスト結果 16
サンプル出力 17
テスト結果の保存 19
SP ベースの診断 19
CD ベースの診断テスト 19
テストの中止 19
3. 障害追跡の項目 21
BIOS 21
BIOS エラーイベントまたは警告イベント 21
BIOS POST コード 25
起動の問題 26
Clear-CMOS ジャンパ 26
DIMM 障害 27
ECC エラー 28
インベントリ 30
ライト、LCD 、LED 30
ログファイル 31
マシンチェックエラー 32
iv Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 5
ネットワーク接続 33
ネットワーク共有ボリューム 34
オペレーティングシステム 34
操作パネル 34
点灯、読み取り可能なテキスト、動作しないボタン 35
点灯、読み取り不可能なテキスト 35
点灯、テキストなし 35
点灯しない 36
PCI または PCI-X ホットプラグ 36
プラットフォーム OS が起動しない 37
PPCBoot - Bad CRC Error 39
デフォルト設定の復元 39
SCSI 構成ユーティリティー 40
使用不可の「 RAID Properties」メニュー項目 40
IM ボリュームによる追加 SCSI ID の使用 41
構成ユーティリティーでのディスクの選択の無効化 41
サービスプロセッサ 42
操作パネルに「Booting SP ... 」が表示される 43
SP の継続的な起動 44
起動の失敗 45
SP を使用する場合 45
シリアルポートに接続された PC を使用する場合 46
ダウングレード後の起動の失敗 46
ユーザーアカウントおよび設定の保持の失敗 47
ネットワーク共有ボリュームへのマウント 48
永続的な記憶領域の問題 48
SSH スクリプトのハングアップ 48
更新の失敗 48
目次 v
Page 6
システムイベント 49
サーマルトリップイベント 50
VRM Crowbar 表明 51
A. 診断テストの結果 53
テストの説明 53
電圧 54
電圧調整 54
電圧計測値 54
テスト結果 55
調整しない電圧、合格 55
調整電圧、合格 55
制限を超えた電圧の障害 55
ハードウェア障害 56
ファン 56
ファンコントローラのプログラミング 56
テスト結果 57
ファン、合格 57
高速回転での障害 58
低速回転での障害 59
メモリー 61
マーチテスト 61
RandAddr テスト 61
保持テスト 61
テスト結果 62
メモリーテスト、合格 62
サービス障害 63
ECC 障害 63
BIOS 設定障害 63
vi Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 7
NIC 65
テスト結果 65
NIC、合格 65
サービス障害 66
リンク停止障害 66
リンク設定不一致の障害 66
リンクステータスが不明である障害 66
ループバック障害 66
書き込み障害 67
読み取り障害 67
比較障害 67
ストレージ 68
テスト結果 68
ストレージ、合格 68
デバイスでセルフテストコマンドが認識されない障害 68
デバイスでセルフテストコマンドを処理できない障害 68
セルフテスト障害 69
セルフテストが破壊されている障害 69
フラッシュメモリー 70
テスト結果 70
フラッシュメモリー、合格 70
システムのオープン障害 70
システムの読み取り障害 70
デバイスのアクセス障害 71
システムの書き込み障害 71
消去障害 71
マジックナンバー障害 71
データの比較障害 72
目次 vii
Page 8
LED 72
テスト結果 72
LED、合格 72
デバイスが存在していないことを示す警告 74
読み取り障害 74
書き込み障害 74
温度 75
テスト結果 75
温度、合格 75
計測値が警告しきい値を超えている、合格 75
デバイスが存在していないことを示す警告 76
読み取り障害 76
計測値が危険しきい値を超えている障害 76
操作パネル 77
テスト結果 77
OpPanel 、合格 77
読み取り障害 77
書き込み障害 77
データの比較障害 77
電源装置 78
テスト結果 78
電源、合格 78
電源正常信号の障害 79
読み取り障害 80
B. システムイベント 81
イベントの詳細 81
C. POST コード 105
viii Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 9
Phoenix BIOS の POST コード 105
フラッシュ ROM でのブートブロックの POST コード 111
用語集 113
目次 ix
Page 10
x Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 11
はじめに
『Sun Fire V20z および Sun Fire V40z サーバー— 障害追跡手法および診断マニュア
ル』では、発生する可能性があるシステムの問題に関する情報およびソリューション
について説明します。この説明の中で診断テストの使用手順、およびすべてのシステ
ムイベントの詳細を示します。このマニュアルは、技術者、システム管理者、承認
サービスプロバイダ (Authorized Service Provider 、ASP) 、およびハードウェアの障
害追跡や交換についての高度な経験を持つユーザーを対象としています。
お読みになる前に
一部の障害追跡手順では、システムコンポーネントを取り外したり、交換したりする
必要があります。このため、次のマニュアルで安全に関するガイドラインとコンポー
ネントの取り外しおよび交換の手順を確認することが重要です。
■ 『Sun Fire V20z and Sun Fire V40z Servers —Safety and Compliance Guide 』
■ 『Sun Fire V20z および Sun Fire V40z サーバー — ユーザーマニュアル 』
UNIX コマンド
このマニュアルには、システムの停止、システムの起動、およびデバイスの構成など
に使用する基本的な UNIX® コマンドと操作手順に関する説明は含まれていない可能
性があります。これらについては、以下を参照してください。
■ 使用しているシステムに付属のソフトウェアマニュアル
■ 下記にある Solaris™ オペレーティングシステムのマニュアル
http://docs.sun.com
xi
Page 12
書体と記号について
書体または記号
AaBbCc123
AaBbCc123
AaBbCc123
『 』 参照する書名を示します。 『Solaris ユーザーマニュアル』
「 」 参照する章、節、または、強調
\
* 使用しているブラウザにより、これらの設定と異なって表示される場合があります。
*
意味 例
コマンド名、ファイル名、ディ
レクトリ名、画面上のコン
ピュータ出力、コード例。
ユーザーが入力する文字を、画
面上のコンピュータ出力と区別
して表します。
コマンド行の可変部分。実際の
名前や値と置き換えてくださ
い。
する語を示します。
枠で囲まれたコード例で、テキ
ストがページ行幅を超える場合
に、継続を示します。
.login ファイルを編集します。
ls -a を実行します。
% You have mail.
%
su
Password:
rm filename と入力します。
第 6 章「データの管理」を参照。
この操作ができるのは「スーパー
ユーザー」だけです。
% grep ‘^#define \
XV_VERSION_STRING’
関連マニュアル
ここで示されているマニュアルは、次の URL で入手できます。
http://www.sun.com/products-nsolutions/hardware/docs/Servers/Workgroup_Servers/Sun_Fire_V20z/
index.html
用途 タイトル
安全性に関する情報 『Important Safety Information for Sun
安全性に関する注意事項
および国際的な規格への
適合性の保証
xii Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Hardware Systems 』
『Sun Fire V20z and Sun Fire V40z
Servers—Safety and Compliance Guide 』
Part No.
816-7190-xx
817-5251-xx
Page 13
用途 タイトル
ハードウェアの設置およ
びシステムソフトウェア
のインストール
保守手順などの情報 『Sun Fire V20z および Sun Fire V40z サー
オペレーティングシステ
ムのインストール
障害追跡および診断 『Sun Fire V20z および Sun Fire V40z サー
最新情報 『Sun Fire V20z および Sun Fire V40z サー
サーバーモデルの比較 『Sun Fire V20z サーバーと Sun Fire V40z
『Sun Fire V20z および Sun Fire V40z サー
バー— 設置マニュアル』
バー— ユーザーマニュアル』
『Sun Fire V20z および Sun Fire V40z サー
バー—Linux オペレーティングシステムインス
トールマニュアル』
バー— 障害追跡手法および診断マニュアル』
バー— ご使用にあたって』
サーバーのバージョン間の相違点』
Part No.
817-6146-xx
819-2918-xx
817-6156-xx
819-2928-xx
819-2913-xx
819-4304-xx
マニュアル、サポート、およびトレーニ
ング
Sun のサービス
マニュアル
サポートおよび
トレーニング
URL
http://jp.sun.com/documentation/
hhttp://www.sun.com/supportraining/
説明
PDF と HTML マニュアルをダウンロード
する、印刷マニュアルを注文する
テクニカルサポートを受る、パッチをダウ
ンロードする、Sun のコースについて情報
を入手する
はじめに xiii
Page 14
Sun 以外の Web サイト
このマニュアルで紹介する Sun 以外の Web サイトが使用可能かどうかについては、
Sun は責任を負いません。このようなサイトやリソース上、またはこれらを経由して
利用できるコンテンツ、広告、製品、またはその他の資料についても、Sun は保証し
ておらず、法的責任を負いません。また、このようなサイトやリソース上、またはこ
れらを経由して利用できるコンテンツ、商品、サービスの使用や、それらへの依存に
関連して発生した実際の損害や損失、またはその申し立てについても、Sun は一切の
責任を負いません。
コメントをお寄せください
マニュアルの品質改善のため、お客様からのご意見およびご要望をお待ちしておりま
す。コメントは下記よりお送りください。
http://www.sun.com/hwdocs/feedback
ご意見をお寄せいただく際には、下記のタイトルと Part No. を記載してください。
『Sun Fire V20z および Sun Fire V40z サーバー— 障害追跡手法および診断マニュア
ル』、Part No. 819-2928-12
xiv Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 15
第 1 章
予防のための保守
システムの慎重な設定、変更の包括的な管理、および確立された繰り返し可能な手順
を順守することで、多くの問題を回避できます。
成功のためのガイドライン
問題の予防および障害追跡の簡略化に役立つガイドラインを、次に示します。
■ サーバーの場所を示す名前など、サーバーで統一された命名規則を使用します。
■ 使用するデバイスに一意の ID または名前を付けて、同じリソースの競合が発生す
る危険性を減らします。競合の可能性を調査するには、サーバー設定ユーティリ
ティーを使用します。
■ バックアップ計画を作成します。
■ データがたびたび変更される場合は、頻繁にバックアップを行うようにスケ
ジュールを設定します。
■ 情報の復元の必要性に基づいて、バックアップのライブラリを維持します。
■ バックアップは定期的にテストして、データが正しく格納されていることを確
認します。
■ エンタープライズシステム管理ツールを使用して特定のプロセスを自動化する
か、次の情報を手動で追跡します。
■ ハードディスクの空き容量を定期的に確認します。各ハードドライブには 15%
以上の空き領域を確保してください。
■ 履歴データを保持します。たとえば、CPU の初期使用レベルの基準レコードを
使用すると、大幅な上昇に確実に気付きます。問題が発生した場合は、この基
準データと現在のデータを比較できます。このほかに、ユーザー、バス、電力
の利用率なども追跡できます。
1
Page 16
■ 傾向の分析を持続して、予測可能な変化を考慮に入れます。たとえば、CPU の
利用率が昼前に常に 50% 上昇する場合、追跡対象のサーバーにとってはその上
昇が正常であると推測できます。
■ 問題解決のためのノートブックを作成します。問題が発生した場合には、問題
解決のために行なった対処を記録します。この記録の情報は、同じ問題が発生
した場合に、自分自身または別の人が、より迅速に問題を解決するために役立
ちます。また、この情報によって、部品交換の問題を的確に処理できるように
なります。
■ 最新のネットワークトポロジーマップを、すぐ参照できる場所に保持します。
このマップは、ネットワーキングの問題の障害追跡を行うために役立ちます。
変更の管理
多くのサーバー問題は、サーバー内の何かを変更したあとに発生します。サーバーに
変更を加えるときは、次のガイドラインに従ってください。
■ 変更する前にシステム設定を文書化します。
■ 可能な場合は、可能性のある問題を特定できるように、変更は一度に 1 つずつ実
行します。これにより、管理された環境を維持することができ、障害追跡の範囲
を狭めることができます。
■ 各変更の結果を記録します。エラーおよび情報メッセージも記録します。
■ 新しいデバイスを追加する前に、競合する可能性のあるデバイスを確認します。
■ バージョン依存、特に Sun 以外のソフトウェアとの依存を確認します。
■ サーバー問題の原因を見つけ、解決するには、次の情報を収集します。
■ 障害が発生する前に発生したイベント。
■ 変更または取り付けたハードウェアやインストールしたソフトウェアがあるか
どうか。
■ サーバーは最近設置または移動したものか。
■ サーバーが徴候を示していた期間。
■ 問題の持続期間または発生頻度。
■ 問題の詳細を確認し、現在の構成および環境を書き留めたあとは、次のいずれか
を行います。
■ システムの目視による検査 (次の節を参照)。
■ 診断テストの実行 (7 ページの「診断」を参照)。
2 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 17
システムの目視検査
不適切に設定されたコントロールと、緩んだまたは不適切に接続されたケーブルは、
ハードウェアコンポーネントの問題の代表的な原因です。システムの問題を調査する
ときは、まず、すべての外部のスイッチ、コントロール、およびケーブルの接続を調
べます。この調査で問題が解決しない場合は、システムの内部ハードウェアについ
て、カード、ケーブルコネクタ、取り付け用ネジの緩みなどの問題を目視で検査して
ください。
ハードウェアコンポーネントの取り外しおよび交換方法については、『Sun Fire
V20z および Sun Fire V40z サーバー— ユーザーマニュアル』を参照してください。
外部の目視検査
外部システムの目視検査を実行するには、次の手順に従います。
1. コンポーネントの異常を示す状態インジケータを検査します。30 ページの「ライ
ト、LCD 、LED 」を参照してください。
2. すべての電源ケーブルがシステム、モニター、および周辺装置に正しく接続されてい
ることを確認し、その電源を調べます。
3. 接続されているすべてのデバイス (ネットワークケーブル、キーボード、モニター、
マウス) およびシリアルポートに接続されているデバイスの接続を調べます。
内部の目視検査
注 – 手順を進める前に、『Important Safety Information About Sun Hardware
Systems 』の説明をお読みください。このマニュアルは、使用しているシステムに付
属しています。また、『Sun Fire V20z および Sun Fire V40z サーバー— ユーザーマ
ニュアル』に記載されたコンポーネントの取り外しおよび交換の手順についても確認
してください。
SM コンソールの「System Status 」画面を使用すると、すべてのシステムハードウェ
アコンポーネントおよびセンサーの状態情報を識別できます。この「System
Status 」画面では、問題のあるコンポーネントや、障害が発生したため交換する必要
があるコンポーネントを簡単に検索することができます。「System Status 」画面に
表示されるコンポーネントイメージは、実際のハードウェアコンポーネントとそのお
おまかな位置とサイズを表しています。詳細は、『サーバー管理マニュアル』を参照
してください。
第 1 章予防のための保守 3
Page 18
1. 内部システムの目視検査を実行するには、システムの電源を切ります。
2. 電源ケーブルを電源コンセントから外します。サーバーによっては、 2 台の電源装置
と 2 本の電源ケーブルが構成されているものがあります。どちらも電源コンセント
から必ず外してください。
注意 – 電源装置から AC 電源コードを抜くと、システムのアースも切れます。静電
放電によるコンポーネントの損傷を避けるために、マシンを同じ電位に保つ必要があ
ります。システム内のコンポーネントに触れるすべての手順を行う間、および取り外
しと交換の手順を行う間は、ESD リストストラップなどの ESD 保護装置を着用して
ください。
3. サーバーのカバーを取り外します。使用しているサーバーのユーザーマニュアルの手
順に従ってください。
注意 – 一部のコンポーネントは、システムの稼働中に高温になる可能性がありま
す。触れる前に、コンポーネントの温度が下がるまで放置してください。
4. コンポーネントを取り外し、必要に応じてソケットにほこりなどが付いていないこと
を確認します。
5. コンポーネントを元に戻し、コンポーネントがソケットまたはコネクタにしっかりと
取り付けられていることを確認します。
6. システム内部のすべてのケーブルコネクタを調べて、適切なコネクタにしっかりと適
切に接続されていることを確認します。
7. サーバーのカバーを元どおりに取り付けます。
8. システムおよび接続されているすべての周辺機器を電源に再接続します。
9. サーバーおよび接続されている周辺機器の電源を入れます。
障害追跡用ダンプユーティリティー
注 – 障害追跡用ダンプユーティリティーのコマンド構文、引数、戻り値などについ
ては、『Sun Fire V20z および Sun Fire V40z サーバー— サーバー管理マニュアル』
にも記載されています。
4 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 19
障害追跡用ダンプユーティリティー (Troubleshooting Dump Utility、TDU) によっ
て、プラットフォーム OS およびサービスプロセッサ (SP) の重要なデバッグデータ
を取得します。このコマンドを実行すると、このデータが収集されて、選択したコマ
ンドオプションに応じて、指定した
nfs ディレクトリに tar 形式で格納されるか、
stdout に送信されます。 TDU では、ログファイルと一緒にサマリーログファイル
が作成されます。サマリーログファイルには、要求された各情報を TDU が正常に収
集したかどうかに関する詳細が含まれています。サマリーログファイルは、tar ファ
イルに含まれています。
主な TDU の定義は、次のとおりです。
■ GPR - 汎用レジスタ。
■ MCR - マシンチェックレジスタ。
■ MSR - MCR を含むマシン状態レジスタ。
■ SPR - 特殊用途レジスタ。
■ CSR - PCI 設定領域レジスタ。
■ TCB - K-8 からのトレースバッファー。
■ TMB - DRAM からのトレースバッファー (TCB)
デフォルトでは、次のデータが収集されます。
■ SST データ (5K バイト )。
■ 消去されていない現在のイベント(120K バイト)。
■ ソフトウェアインベントリ (約 25K バイト)。
■ ハードウェアインベントリ (約 25K バイト)。
■ pstore データ :
■ グループファイル (約 0.5K バイト)
■ イベント設定ファイル (evcfg 、約 4K バイト)。
■ セキュリティー設定ファイル (seccfg 、約 5K バイト)。
■ Ethernet 設定ファイル (netifcfg2-eth0、約 0.2K バイト )。
■ サービスプロセッサに対する現在のプロセス (10K バイト)。
TDU では、オプションで次のデータも収集できます。
■ GPR、 SPR、 MSR、 MCR、および TCB を含む K-8 レジスタ (-c|--cpuregs )
(19K バイト)。
■ すべての PCI 設定レジスタ (-p|--pciregs) (25K バイト)。
■ DRAM からの TCB (--tmb、デフォルトの 128K バイトまたは最大 1G バイトの
ユーザー定義サイズ)。
第 1 章予防のための保守 5
Page 20
注 – テキストモードで 1K バイトの TMB を保存すると、ディスクに約 4K バイトが
必要になります。32K バイトのデフォルトの TMB を保存すると、128K バイトの
ディスク容量が使用され、128M バイトの TMB を保存すると、約 1G バイトのディ
スク容量が使用されます。
障害追跡用ダンプユーティリティーを実行するには、次のコマンドを使用します。
sp get tdulog
-f オプションを指定すると、収集したデータがまとめて tar ファイルに圧縮され
て、SP に格納されます。障害追跡用ダンプユーティリティーの実行には、最長で 15
分かかる場合があります。完了すると、システムプロンプトが表示されます。
すべてのサーバー管理コマンドは、完了するとコードを返します。次に、2 つのリ
ターンコード、その ID 、および概要を示します。
リターンコード
NWSE_Success
NWSE_InvalidUsage 1
ID
定義
0
コマンドが正常に完了しました。
使用法の誤り: パラメタの使用法が誤っているため、指
定したオプションが競合しています。
注 – リターンコード ID は、10 進数です。
6 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 21
第 2 章
診断
診断とは、使用している Sun Fire V20z サーバーまたは Sun Fire V40z サーバーの
ハードウェアの健全性を調査する一連のテストです。サーバーに備えられている診断
テストでは、プラットフォームおよび SP が検査されます。
診断テストでは、次のことを行います。
■ ハードウェアの機能をテストし確認します。たとえば、「ファンが指定の速度で
動作しない」場合などです。
■ デバイスの障害を示し分離します。たとえば、「デバイスが存在しない」場合な
どです。
■ 電圧レベル、SP によるフラッシュファイルの読み取りおよび書き込みなど、多様
なハードウェアまたはソフトウェアの問題を特定します。
■ 交換可能部品を特定します。部品の取り外しおよび交換については、『ユーザー
マニュアル』を参照してください。
診断テストは、次の 2 つの方法のいずれかで実行できます。
■ SP を介して実行する SP ベースの診断。詳細は次の節で説明します。
■ 診断用 CD を介して実行する CD ベースの診断。詳細は、9 ページを参照してくだ
さい。
注 – サーバーで診断を実行している間は、IPMI のコマンド行インタフェースを介し
て SP と対話しないでください。この場合、センサーが返す値は信頼できるものでは
ありません。診断の読み込み中にセンサーコマンドを実行すると、誤った重大イベン
トがイベントログに記録される場合があります。
特定のテストは SP で、その他のテストはプラットフォーム OS で実行するように設
計されています。詳細は、14 ページの「診断モジュール」を参照してください。
7
Page 22
SP ベースの診断
SP から診断テストを実行できます。診断ファイルは、ネットワーク共有ボリューム
(Network Share Volume、NSV) ディレクトリに格納されています。SP ベースの診断
テストでは、次のことを実行できます。
■ SP またはプラットフォームでテストを実行できます。詳細は、14 ページの表 2-1
「診断モジュール」を参照してください。
■ SP のみでテストを実行できます。
■ 遠隔からテストを実行できます。
■ NSV がマウントされている場合には、外部 (NSV) の場所にテスト結果を保存でき
ます。
SP の設定方法、NSV ソフトウェアのインストールおよび設定方法、および SSH の
スクリプトの使用方法については、『Sun Fire V20z および Sun Fire V40z サーバー
—設置マニュアル』を参照してください。診断テストの更新方法については、『 Sun
Fire V20z および Sun Fire V40z サーバー—サーバー管理マニュアル』を参照してく
ださい。
注 – NSV の診断のバージョンは、SP にインストールされているものと同じバージョ
ンである必要があります。
SP ベースの診断の開始方法
1. SP およびプラットフォームの両方の診断テストを使用可能にするには、diags
start コマンドを実行します。このコマンドは、プラットフォームを診断モードで
再起動します。2 ~ 3 分以上待ってから、テストを実行します。
または
プラットフォームを再起動しないで SP の診断テストのみを使用可能にするには、コ
マンド diags start -n を実行します。
注 – CD ベースの診断の場合には、-n 引数は、診断で SP を読み込まないことを指
定します。
2. 診断テストが実行可能かどうかを確認するには、コマンド diags get state を実
行します。このコマンドは、次のいずれかの状態を返します。
8 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 23
正常を示すテキストメッセージ
The SP and the platform diagnostics systems are available to receive
test requests.
または
エラーを示すテキストメッセージ
The platform diagnostics system is not available.
診断モジュールと、モジュールに含まれるテストの種類については、14 ページの
「診断モジュール」の表を参照してください。この表には、各テストモジュールが
SP とプラットフォームのどちらで実行されるかが示されています。
CD ベースの診断
注 – NSV の 2.x.x.x より前のリリースではプラットフォームのみのテストを実行でき
ますが、この場合には、ユーザーは手動でインタリーブを無効にしてメモリーテスト
を実行する必要があります。NSV のこれらのリリースでは、CD から SP テストを実
行することはできません。
■ CD から診断テストを実行できます。
■ SP またはプラットフォームでテストを実行できます。
■ プラットフォームでのみテストを実行できます。
■ CD を起動したあと、遠隔からテストを実行できます。この場合は、 SSH を使用
して診断テストにログオンします。
■ テスト結果は USB スティックまたはフロッピーディスクに保存できます。
CD ベースの診断のインストールおよび実行
デフォルトでは、BIOS は診断モードで起動しません。システムの起動時に CD が
サーバーに挿入されており、CD ドライブが起動順序の先頭に指定されている場合
は、BIOS は CD を検出して診断モードで再起動します。この処理を行うには、以降
の指示に従ってください。
第 2 章診断 9
Page 24
Version 2.2.0.0 以降の BIOS の場合
Version 2.2.0.0 以降の BIOS では、診断モードで起動するように BIOS を設定できま
す。これにより、起動中に CD が BIOS 設定を検出し、必要に応じてマシンを診断
モードで再起動します。このオプションは、BIOS の「Advanced 」メニューにありま
す。再起動しないようにする方法については、『Sun Fire V20z および Sun Fire V40z
サーバー— ユーザーマニュアル』の BIOS の設定に関する説明を参照してください。
2.2.0.0 より前のバージョンの BIOS の場合
起動時に、使用しているバージョンの BIOS が診断モードで起動できないことが検出
されると、システムによって一連の手順が表示され、ユーザーはそれに従って BIOS
設定を構成して正常にメモリーテストを実行することができます。適切に設定されて
いない場合は、メモリーテストで警告が出力されます。
CD ベースの診断のインストール
CD が自動的に起動されるようにするには、サーバーで起動順序の先頭に CD が指定
されている必要があります。起動順序は、BIOS の「Boot 」メニューで設定します。
順序は、次のようにして変更できます。
■ BIOS の「Boot 」メニューでプラス (+) またはマイナス (-) を使用して、CD-ROM
ドライブをリストの一番上に移動します。詳細は、『Sun Fire V20z および Sun
Fire V40z サーバー— ユーザーマニュアル』を参照してください。
■ サーバーがハードディスクドライブから起動する場合は、HDD を取り外してくだ
さい。
■ サーバーが PXE サーバーから起動する場合は、Ethernet ケーブルを外してくださ
い。
1. 次の ISO イメージの場所について、使用しているシステムのベンダーに確認しま
す。
cd_diags.iso
2. ISO イメージを CD に記録します。
3. CD をドライブに挿入し、プラットフォームを起動します。プラットフォームが自動
的に起動されるようにするには、CD ドライブが起動リストの先頭に指定されている
必要があります。このことを確認するには、前述の箇条書き部分を参照してくださ
い。
CD が起動すると、次のように、プラットフォームの IP アドレスが表示されます。
Welcome to CD Diagnostics <version displayed>.
Platform eth0 connected for SSH sessions at <ipaddr>
Platform eth1 connected for SSH sessions at <ipaddr>
10 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 25
SSH を介して遠隔からログオンする場合は、この IP アドレスを使用できます。12
ページの「CD ベースの診断への遠隔アクセス」を参照してください。ユーザー
diagUser として自動的にログオンします。
CD 起動プロセスが完了すると、ただちにログオンし、画面に CD 診断メニューが表
示されます。メニューオプションを使用して、テストを実行してシステム情報を収集
することができます。または、コマンド行を使用することもできます。
オプションメニューからの CD ベースの診断の実行
オプションメニューを使用すると、すべでの診断テストを実行し、フロッピーディス
クまたは USB ストレージデバイスにシステム情報を取得するプロセスを簡単に行う
ことができます。
メニューオプション
1. View Documentation - このオプションは、ドキュメントを開く場合に使用しま
す。このオンラインドキュメントでは、次のことを説明しています。
■ すべてのメニューオプション
■ 役立つヒント
■ 既知の問題
■ コマンド行から実行可能なコマンド
■ 遠隔マシンから SSH を使用する場合の手順
■ その他の重要な情報
2. Create script run_commands.sh - このオプションは、テストを実行し、ログファ
イルにシステム情報を保存する場合に使用します。このオプションを使用する
と、一連の 3 つのプロンプトが表示されます。プロンプトを選択すると、スクリ
プトが作成されて、保存されているログファイルと同じ場所に格納されます。こ
のスクリプトは、複数のマシンで処理を実行するために使用できます。
3. Run script run_commands.sh - このオプションは、フロッピーディスクに保存し
たスクリプトを実行する場合に使用します。
4. Go to Command Line Interface - このオプションは、コマンド行インタフェースに
移動する場合に使用します。詳細は、『Sun Fire V20z および Sun Fire V40z サー
バー— サーバー管理マニュアル』を参照してください。
5. Shutdown System - このオプションは、診断テストを終了し、OS を停止する場合
に使用します。
注 – 詳細は、「View Documentation」を選択してください。
第 2 章診断 11
Page 26
CD ベースの診断への遠隔アクセス
遠隔アクセスを行うには、プラットフォームにマネージャーレベルのユーザーを事前
に作成しておく必要があります。手順については、『Sun Fire V20z および Sun Fire
V40z サーバー —サーバー管理マニュアル』を参照してください。
CD ベースの診断テストを、遠隔からのコマンド行インタフェースを使用して SSH
ネットワーク経由で行うには、次の手順を実行します。
1. setup ユーザーとして、SSH を使用してプラットフォーム IP アドレスにログオンし
ます。
SP にマネージャーレベルのユーザーをすでに作成してある場合は、新規アカウント
を作成するためのユーザー名とパスワードの入力を求めるプロンプトが表示されま
す。次のユーザー名以外の任意のユーザー名を使用できます。
diagUser
setup
root
入力したユーザー名およびパスワードが検証されると、ログオフします。
2. 次に、ユーザー名とパスワードを使用して、SSH を介してプラットフォームにアク
セスします。
3. SP テストを読み込まずにプラットフォームの診断テストのみを使用可能にするに
は、コマンド diags start -n を実行します。
SP ベースの診断の場合には、-n 引数は、診断でプラットフォームを起動しないこと
を指定します。
または
SP およびプラットフォームの診断テストを両方とも使用可能にするには、コマンド
diags start を実行します。このコマンドは、プラットフォームを診断モードで再
起動します。
2 ~ 3 分以上待ってから、テストを実行します。
または
シェルまたは Perl に、次のいずれかを実装します。
diags start
sleep 240
rc = diags get state
if (rc = = 0)
then
# run desired tests using diags run tests command
12 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 27
else
echo "Diagnostics not loaded in expected time.rc = $rc"
fi
または
rc = diags get state
timer = 0
while (rc == 25 (device error)) and (timer < MAX_WAIT)
do
sleep SLEEP_TIME
timer=time+SLEEP_TIME
rc = diags get state
done
if(timer < MAX_WAIT)
then
# run desired tests using diags run tests command
else
echo "Error loading platform diagnosticsrc = $rc"
fi
4. 診断テストが実行可能かどうかを確認するには、コマンド diags get state を実
行します。
このコマンドは、次のいずれかの状態を返します。
■ 正常を示すテキストメッセージ
The SP and the platform diagnostics systems are available to receive
test requests.
または
■ エラーを示すテキストメッセージ
The platform diagnostics system is not available.
end
if re = = 0
diags run tests -a
注 – コマンド行の引数については、「診断テストの実行」を参照してください。コ
マンドおよびシステム管理でのスクリプトの使用については、『Sun Fire V20z およ
び Sun Fire V40z サーバー— サーバー管理マニュアル』を参照してください。
第 2 章診断 13
Page 28
使用可能な診断テストおよびモジュール
使用可能なモジュールと、モジュールに含まれるテストを一覧表示するには、コマン
ド diags get tests を実行します。
次の表に、使用可能な診断モジュール、およびそのモジュールがプラットフォーム
OS または SP のいずれで実行されるかを示しています。各モジュールには、1 つ以上
の個別テストが含まれます。
表 2-1 診断モジュール
モジュール名
(コマンド)
メモリー
(memory)
ネットワークコント
ローラ
(nic)
ストレージ
(storage)
ファン
(fan)
フラッシュ
(flash)
LED
(led)
操作パネル
(oppanel)
電源
(power)
温度
(temp)
電圧
(voltage)
実行場所 テストの説明
プラット
フォーム
プラット
フォーム
プラット
フォーム
SP
SP
SP
SP
SP
SP
SP
メモリーエラー、アドレスデコード障害、およびデータ
ライン障害を特定します
内部ループバックテストで、プラットフォームの NIC イ
ンタフェースをテストします。
SCSI ドライブでセルフテストを起動します。
各ファンが回転していて、そのファンの RPM が指定され
た範囲内であることを確認します。
フラッシュファイルの読み取りおよび書き込みを行いま
す。
LED ドライブの回路が正常に動作していることを確認し
ます (非対話型テスト)
操作パネルのメモリーを確認します。すべてのエラーの
値および場所を示します。
配電バックプレーンおよび電源装置が正常に機能してい
ることを確認します。一部のシステムでは使用できませ
ん。
各温度センサーが作動していて、温度が指定された範囲
内であることを確認します。
派生 (システム内のさまざまな VRM によって発生する)
およびバルク電圧を調べます。
14 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 29
診断テストの実行
注 – プラットフォーム OS で診断を開始すると、フロッピードライブのマウントが試
行され、エラー「 mount : Mounting /dev/fd0 on /mnt/floppy failed.
No such device」が返されます。このエラーメッセージは、無視しても問題あり
ません。
コマンド行インタフェースからテストを実行する場合は、すべてのテスト、特定のモ
ジュールのテスト (ファン、メモリー、電圧、温度など)、モジュール内の特定のテス
ト、またはこれらのオプションの組み合わせのいずれかを選択して実行できます。こ
れらのオプションは、diags run tests コマンドを実行する場合に指定します。
■ 個別または一括でテストを実行します。
■ すべてのテストを実行するには、-a オプションを使用します。
■ 1 つ以上のテストモジュールを実行するには、-m モジュールオプションを使用
します。
■ 1 つ以上の個別テストを実行するには、-n test_name オプションを使用しま
す。
■ 1 つ以上のテストモジュールと 1 つ以上の個別テストを実行するには、-m
module および -n test_name の両方のオプションを使用します。
たとえば、操作パネルの診断モジュールを実行するには、次のコマンドを使用しま
す。
diags run tests -m oppanel
■ テストモジュールは、通常、名前順に実行されます。
■ それぞれのテストは、コマンド行で指定した順序で実行されます。
■ テストが正常に終了したことを示す状態メッセージが表示されます。
注 – スクリプトを記述すると、テストのタイミングをより詳細に制御できます。た
とえば、シェルスクリプトを記述して、指定した回数だけテストを繰り返すことがで
きます。詳細は、『Sun Fire V20z および Sun Fire V40z サーバー— サーバー管理マ
ニュアル』を参照してください。
第 2 章診断 15
Page 30
テスト結果
テストが完了すると、ステータスが返されます。テストでエラーが検出された場合に
は、そのエラーの詳細が報告され、指定したその他のテストが継続して実行されま
す。
注 – -v| --verbose オプションを指定すると、正常終了を含めすべてのテストの
詳細が表示されます。たとえば、その詳細に最高値、正常値、最低値などが含まれる
場合があります。
すべての診断テストで、次のデータが作成されます。
■ 実行を要求したテスト名
■ テストハンドル (別のシェルウィンドウからテストを中止する場合に使用できる一
意の識別子)
■ テスト結果 (Passed 、Failed)
■ 詳細 (Failure Details 、Tests Details など)
注 – すべての診断テストの出力例は、53 ページの「診断テストの結果」を参照して
ください。
診断テストで特定されたコンポーネントの位置を特定するには、システムコンポーネ
ントと関連センサーが表示される、SM コンソールの「System Status 」ウィンドウを
確認します。SM コンソールの詳細は、『Sun Fire V20z および Sun Fire V40z サー
バー— サーバー管理マニュアル』を参照してください。システムとコンポーネントの
ラベルの図については、『Sun Fire V20z および Sun Fire V40z サーバー— ユーザー
マニュアル』および『Sun Fire V20z および Sun Fire V40z サーバー— 設置マニュア
ル』を参照してください。
16 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 31
サンプル出力
この節では、電源が入った状態のときに、--verbose 引数を指定してプラット
フォーム以外のモードで diags を開始した場合に返される出力を示します。次に例
を示します。
diags start -n
platform set power state on -f
diags run tests -a -v
Submitted Test Name Test Handle
次に一般的な出力を示します。
speed.allFans 1
Results
Submitted Test Name Test Handle Test Result
speed.allFans 1 Passed
Test Details:
fan1.tach Passed
Controller: fan-ctrl
High Rated: 13000
High Actual: 13740
High Delta: +5.39%
High Limits: -10/+35%
Low Setpoint: 10010
Low Expected: 10580
Low Actual: 11100
Low Delta: 4.69%
Low Limits: -/+15%
Sensor: Fan 1 measured speed (ID=fan1.tach)
Component(s): Fan 1 (ID=NA)
fan2.tach Passed
Controller: fan-ctrl
High Rated: 13000
High Actual: 13920
High Delta: +6.61%
High Limits: -10/+35%
Low Setpoint: 10010
Low Expected: 10718
Low Actual: 11100
Low Delta: 3.44%
Low Limits: -/+15%
Sensor: Fan 2 measured speed (ID=fan2.tach)
Component(s): Fan 2 (ID=NA)
fan3.tach Passed
Controller: fan-ctrl1
第 2 章診断 17
Page 32
High Rated: 13000
High Actual: 13860
High Delta: +6.20%
High Limits: -10/+35%
Low Setpoint: 10010
Low Expected: 10672
Low Actual: 11040
Low Delta: 3.33%
Low Limits: -/+15%
Sensor: Fan 3 measured speed (ID=fan3.tach)
Component(s): Fan 3 (ID=NA) fan4.tach Passed
Controller: fan-ctrl1
High Rated: 13000
High Actual: 13920
High Delta: +6.61%
High Limits: -10/+35%
Low Setpoint: 10010
Low Expected: 10718
Low Actual: 11100
Low Delta: 3.44%
Low Limits: -/+15%
Sensor: Fan 4 measured speed (ID=fan4.tach)
Component(s): Fan 4 (ID=NA)
fan5.tach Passed
Controller: fan-ctrl2
High Rated: 13000
High Actual: 13980
High Delta: +7.01%
High Limits: -10/+35%
Low Setpoint: 10010
Low Expected: 10765
Low Actual: 11100
Low Delta: 3.02%
Low Limits: -/+15%
Sensor: Fan 5 measured speed (ID=fan5.tach)
Component(s): Fan 5 (ID=NA)
fan6.tach Passed
Controller: fan-ctrl2
High Rated: 13000
High Actual: 14160
High Delta: +8.19%
High Limits: -10/+35%
Low Setpoint: 10010
Low Expected: 10903
Low Actual: 11340
Low Delta: 3.85%
Low Limits: -/+15%
Sensor: Fan 6 measured speed (ID=fan6.tach)
Component(s): Fan 6 (ID=NA)
18 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 33
テスト結果の保存
SP ベースの診断
SP ベースの診断テストの結果を保存するには、出力をネットワーク共有ボリューム
ファイルとして保存します。たとえば、実行するすべてのテストの結果を
diags.log1 に保存するには、次のコマンドを使用します。
diags run tests -all > /mnt/log/diags.log1
CD ベースの診断テスト
CD ベースの診断テストの結果を保存するには、USB スティックまたはフロッピード
ライブをマウントします。
■ USB スティックをマウントするには、次のコマンドを使用します。
mount /usbstorage
注 – USB ストレージのマウントは、使用しているシステムに 1 つのディスクドライ
ブが搭載されている場合にのみ有効です。
■ フロッピーディスクをマウントするには、次のコマンドを使用します。
mount /floppy
■ デバイスを取り外すには、次のコマンドを使用します。
unmount /<usbstorage | floppy>
テストの中止
■ 1 つ以上の個々のテストの実行を中止するには、次のコマンドを実行します。
diags cancel tests {-t|--test} TEST HANDLE {-a|--all}
■ すべてのテストを中止するには、テストを起動したシェルから Ctrl+C を押しま
す。
■ すべての診断テストを終了してセッションを終了するには、diags terminate
コマンドを実行します。
第 2 章診断 19
Page 34
20 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 35
第 3 章
障害追跡の項目
この章では、さまざまな問題に関する障害追跡の手順および参照先について説明しま
す。ここでの情報は、一般的な項目に基づいて構成されており、必要に応じて相互参
照が設定されています。また、このマニュアルの最後には索引も示されています。
BIOS
この節では、BIOS に関連するシステム管理イベントの考えられる原因とその障害追
跡の推奨手順について説明します。
注 – BIOS アップデートの方法については、『Sun Fire V20z および Sun Fire V40z
サーバー— サーバー管理マニュアル』および SM コンソールのオンラインヘルプを参
照してください。BIOS アップデートの障害追跡については、48 ページの「更新の失
敗」を参照してください。
BIOS エラーイベントまたは警告イベント
次の表に示されているエラーは、sp get events コマンドを実行した場合に返され
ます。この表では、考えられる原因および各問題を解決するための推奨処置を、経験
に基づいて発生する可能性の高い順に示します。
注 – sp get events コマンドについては、『Sun Fire V20z および Sun Fire V40z
サーバー— サーバー管理マニュアル』を参照してください。
21
Page 36
表 3-1 BIOS エラーメッセージ
エラー 解決方法または参照先
[CPU ID Error]
[Date and Time
Setting Error]
[Diag Failed
Memtest]
[Diagnostic Load
Failure]
[DMA Test
Failed]、
[Software NMI
Failed]、 [Fail-
Safe Timer NMI
Failed]
[Fixed Disk
Failure]
この問題は、CPU のバージョンが一致していないために発生する可能性
があります。各 CPU のバージョンを確認してください。バージョンが一
致していない場合は、一貫性のあるバージョンの CPU と交換してくださ
い。
通常、このエラーは、バッテリに障害が発生したことを示しています。こ
の問題を解決するには、バッテリを交換して設定を実行し、日付および時
刻を設定して、5 分間電源を切断した状態にしたあとで電源を再投入し、
エラーが再度発生するかどうかを確認してください。
この問題を解決するには、報告された DIMM を交換してから再起動して
ください。別の DIMM に障害が発生した場合は、これらの DIMM を交換
してテストを繰り返してください。同じ DIMM に障害が発生した場合
は、DIMM のセット全体を、正常であるとわかっている DIMM と交換し
てテストを再度実行してください。詳細は、27 ページの「DIMM 障害」
を参照してください。
SP からプラットフォームへの診断の読み込み中に、読み込み処理が失敗
しました。処理を再試行してください。
このメッセージは、発生する可能性がかなり低いため表示されることはあ
まりありません。このメッセージが表示された場合は、サーバーを再起動
してください。
複数 HDD システムのすべての HDD に障害が発生した場合、この問題の
原因は電源装置である可能性があります。また、単一 HDD システムで問
題が発生した場合も、電源装置が原因である可能性があります。しかし、
まず、ここに示されているその他の可能性を確認してください。HDD
データケーブルの接続が間違っているか、バックプレーンコネクタの接合
方法が不適切である可能性があります。コネクタが、バックプレーンに
しっかりと接続されていることを確認してください。ドライブが完全に挿
入されていない可能性があります。ドライブを取り出し、検査してから再
度挿入し、スムーズに完全に接合されることを確認してください。ドライ
ブの電気回路またはインタフェースに障害が発生しています。可能な場合
は、ドライブを同一システムの別のスロットに挿入してください。他のシ
ステムでドライブが機能する場合は、最初の問題が発生したサーバーにこ
のドライブを戻してください。他のシステムでもドライブに障害が発生す
る場合は、可能であれば、元のシステムで別のドライブを試してくださ
い。2 台めのシステムで機能したドライブが 1 台めのシステムでは機能し
ない場合は、1 台めのシステムを返品してください。2 台めのシステムで
機能したドライブが 1 台めのシステムで機能せず、1 台めのシステムのド
ライブが 2 台めのシステムで機能しない場合は、ドライブの電気回路およ
びバックプレーンに障害が発生している可能性があります。システムを返
品してください。
22 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 37
表 3-1 BIOS エラーメッセージ (続き)
エラー 解決方法または参照先
[Flash Image
Validation Error]
[Flash Process
Failure]
[Incorrect BIOS
image file]
[IP Failure]
[Memory
Mismatched]
[Operating
System not
found]
[Parity Error
(Memory)]、
[Extended
Memory
Tru nc at io n]
[Real-Time
Clock Error]
[Shadow RAM
Failed]、 [System
RAM Failed]、
[Extended RAM
Failed]
BIOS アップデートコマンドで使用される BIOS イメージが破壊されてい
るか、このイメージが BIOS イメージではない (ファイル名が間違ってい
る) か、プラットフォームへのイメージの転送が失敗しました。処理を再
試行してください。障害が引き続き発生する場合は、ファイルが本当に有
効な BIOS イメージファイルであるかどうかを確認してください。
このエラーは、フラッシュチップに問題がある場合に発生する可能性があ
ります。この問題を解決するには、フラッシュチップを交換してくださ
い。問題が解消されない場合は、ユーザーが対処できない問題を示してい
る可能性があります。サポートセンターに連絡してください。
BIOS アップデートコマンドに指定した BIOS イメージが、別のプラット
フォーム用の BIOS です。使用するプラットフォーム用の適切な BIOS イ
メージを入手してください。
BIOS と SP 間に内部通信エラーが発生しました。処理を再試行してくださ
い。
DIMM のペアが一致している必要があります。各ペアの DIMM が一致し
ているかどうかを確認して、必要に応じて再構成してください。詳細は、
27 ページの「DIMM 障害」を参照してください。
このエラーは、ドライブまたはメディアが空で、起動ブロックが含まれて
いない場合に発生する可能性があります。または、目的の起動デバイスが
BIOS 設定の起動設定に含まれていない場合や、フロッピーディスクがフ
ロッピードライブに挿入されたままになっている場合、メディアが損傷し
ているか破壊されている場合に発生する可能性があります。ハードドライ
ブから起動する場合は、通常、固定ドライブの障害のときにこの問題が検
出されます。
BIOS が、不正な DIMM の割り当てを報告することがあります。これらの
エラーのいずれかが断続的に発生する場合は、メモリーテストを実行して
ください。詳細は、7 ページの「診断」および 61 ページの「メモリー」
を参照してください。
このエラーは、サウスブリッジ障害、BIOS 障害、水晶の不具合、または
発振器の不具合を示す可能性があります。この問題を解決するには、再度
BIOS をフラッシュするか、バッテリを交換してください。
これらのエラーは、一般的なメモリー DIMM エラーを示しています。最
初の 2 つのエラーは、RAM の最初の MG で障害が発生したことを示して
います。詳細は、27 ページの「DIMM 障害」を参照してください。診断
カーネルを起動できない場合は、すべての DIMM を、正常であるとわ
かっている DIMM と交換します。診断カーネルを起動できる場合は、診
断を実行して不具合のある DIMM を特定します。
第 3 章 障害追跡の項目 23
Page 38
表 3-1 BIOS エラーメッセージ (続き)
エラー 解決方法または参照先
[System Timer
Error]
Received [early]
fatal error from
BIOS: [Unable to
do anything]
このエラーは、旧バージョンからのエラーです。このエラーは、サウスブ
リッジ障害または BIOS 障害を示す可能性があります。もっとも可能性の
高い原因は、BIOS の破壊です。この問題を解決するには、再度 BIOS を
フラッシュします。
より具体的なエラーコードが報告される程度までシステムが十分に稼動す
る前に、BIOS によっていくつかのハードウェアエラーが検出されること
があります。取り付けられている CPU が正常であるとわかっている場合
は、サポートセンターに連絡します。
表 3-2 BIOS 警告メッセージ
警告 解決方法または参照先
[CMOS
Checksum
Failure]、
[CMOS Settings
do not match
hardware
configuration]、
[CMOS Invalid]
[PCI-X Slot
disabled for 8131
Errata 56]
Received
warning from
BIOS: [CMOS
Battery Failure]
これらの問題を解決するには、設定を再度実行して保存し、終了してから
電源を入れ直します。設定の再実行については、『ユーザーマニュアル』
の 「BIOS 設定ユーティリティー」を参照してください。これらのエラー
のいずれかが再度発生する場合は、バッテリを交換して設定を実行し、日
付および時刻を設定して、5 分間電源を切断した状態にしたあとで電源を
入れ直してください。エラーが再度発生する場合は、サポートセンターに
連絡してください。
設定中に、「Advanced 」メニューで、カードの認識を可能にするオプ
ションが設定されていることを確認してください。設定については、
『ユーザーマニュアル』の 「IOS 設定ユーティリティー」を参照してくだ
さい。このオプションは、カードのデータが破壊されないことが確実であ
る場合、またはデータが破壊される危険性を承知したうえで行う場合にの
み設定してください。データが破壊されないように、カードの電源が切ら
れています。詳細は、『Sun Fire V20z および Sun Fire V40z サーバー—ご
使用にあたって』を参照してください。
このエラーは、バッテリ障害を示している可能性があります。この問題を
解決するには、バッテリを交換して設定を実行し、日付および時刻を設定
して、5 分間電源を切断した状態にしたあとで電源を入れ直してくださ
い。エラーが再度発生する場合は、サポートセンターに連絡してくださ
い。
24 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 39
BIOS POST コード
ハードウェアエラーまたは構成エラーが発生すると、ビデオディスプレイが取り付け
られている場合は、BIOS によって警告メッセージまたはエラーメッセージがビデオ
ディスプレイに表示されます。ただし、エラーによっては、非常に重大であるため
に、BIOS がビデオを初期化できない、またはただちに停止する場合があります。こ
のような場合でも、BIOS によって実行された最後の電源投入時自己診断 (POST) タ
スクを確認できます。これは、ポート 80 に書き込まれた値で示されます。
■ sp get port80 コマンド - このコマンドを使用してポート 80 の最後の POST
コードを取得する方法については、SM コンソールのオンラインヘルプまたは
『Sun Fire V20z および Sun Fire V40z サーバー— サーバー管理マニュアル』を参
照してください。
■ 最後の 10 件の POST コード - 操作パネルを使用してポート 80 の最後の 10 件の
POST コードを取得する方法については、『 Sun Fire V20z および Sun Fire V40z
サーバー —サーバー管理マニュアル』を参照してください。
■ POST コードおよび定義 - POST コードおよび簡単な定義のリストについては、
105 ページの「 POST コード」を参照してください。
■ BIOS エラーイベントまたは警告イベント - もっとも頻繁に報告される POST コー
ドの原因となる問題、およびその問題の解決方法に関するヒントについては、前
述の節を参照してください。
次の表に、Sun Fire V20z サーバーおよび Sun Fire V40z サーバーで報告されるもっ
とも代表的な POST コードと推奨される障害追跡の処置を示します。
表 3-3 代表的な POST コード
POST コード 解決方法または参照先
00
C0
28
2C
49
POST コードを書き込むところまで BIOS が実行されていないことを示し
ています。通常、これは、電源投入の失敗、致命的な CPU の問題、また
は致命的な BIOS フラッシュ部品の問題が原因で発生します。
オペレーティングシステムが検出されなかったことを示しています。
DIMM 上の SPD の読み込みが正常に行われなかったことを示していま
す。DIMM に不具合がある可能性があります。詳細は、27 ページの
「DIMM 障害」を参照してください。
不具合のある DIMM 、VRM 、または CPU によって発生したアドレスエ
ラーまたはデータエラーを示しています。詳細は、27 ページの「DIMM
障害」を参照してください。
PCI 構成領域エラーを示しています。PCI ボードを取り外して原因となる
ボードを見つけ、必要に応じて、ボードの順序を入れ替えるか、ボードを
交換するか、またはほかの製造元のボードを使用してください。
第 3 章 障害追跡の項目 25
Page 40
起動の問題
プラットフォーム OS に関連する起動の問題については、37 ページの「プラット
フォーム OS が起動しない」を参照してください。SP に関連する起動の問題につい
ては、42 ページの「サービスプロセッサ」を参照してください。
Clear-CMOS ジャンパ
いくつかの障害追跡手順では、CMOS ジャンパをクリアすることが必要となりま
す。この手順の注意点は、次のとおりです。
■ Sun Fire V20z サーバーでは、CMOS ジャンパは J110 です。
■ Sun Fire V40z サーバーでは、CMOS ジャンパは J125 です。
1. サーバーの電源を切ります。
2. AC 電源コードを外します。電源装置が 2 つある場合は、両方の AC 電源コードを外
します。
3. 『ユーザーマニュアル』の手順に従って、システムカバーを取り外します。
4. 該当するジャンパの位置を確認します。サーバーを正面パネルから見た場合のジャン
パの場所は、次のとおりです。
■ Sun Fire V20z サーバーでは、J110 はマザーボードの左奥の領域にあります。
■ Sun Fire V40z サーバーでは、J125 はマザーボードの中央の領域の右側にありま
す。
5. 次回起動したときに CMOS がクリアされるように、ジャンパをドットから離して固
定位置まで移動します。
6. システムカバーを元の位置に取り付け、 AC 電源を再接続します。
7. サーバーを再起動し、起動中に F2 キーを押して BIOS 設定に進みます。
8. F9 を押して、デフォルトを設定します。
9. F10 を押して、変更内容を保存します。
10. サーバーの電源を切り、 AC 電源コードを外して、システムカバーを取り外します。
11. 次回起動したときに CMOS で設定が保持されるように、ジャンパをドットに近付け
て動作位置に戻します。
26 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 41
12. システムカバーを元の位置に取り付けて AC 電源を再接続し、サーバーを再起動しま
す。
DIMM 障害
注 – DIMM 障害レポートを使用可能にするには、『 Sun Fire V20z および Sun Fire
V40z サーバー— 設置マニュアル』の説明に従って、システムに NSV ソフトウェアを
インストールする必要があります。これらのドライバは NSV で使用できますが、こ
の機能を使用可能にするために NSV を SP にマウントする必要はありません。
システム障害 LED が点滅し、修正不可能な DIMM 障害またはしきい値を超えた修正
可能な障害を示します。また、障害はイベントログ、SM コンソール、および診断メ
モリーテストにも報告されます。DIMM 障害が報告されている診断出力の例につい
ては、28 ページの「ECC エラー」を参照してください。障害の種類、障害が発生し
た場所、およびプラットフォームオペレーティングシステムの信頼性によっては、シ
ステムが正常に動作を継続することもあります。
IPMI システムイベントログ (SEL) レコードは、修正可能および修正不可能な DIMM
ECC エラーの両方に対して生成されます。エラーの種類を判断するには、 Event
Data 1 のセンサー固有のオフセットを調べます。 CPU (メモリーバンク) 番号および
DIMM 番号は、それぞれ Event Data 3 フィールドの上位ニブルおよび下位ニブルに
よって特定できます。
■ エラーが修正不可能である場合は、システムを停止して DIMM を交換します。
■ エラーが修正可能である場合は、修正可能な最初の DIMM エラーをクリアし、シ
ステムを監視して、問題が再発するかどうかを調べます。修正可能なエラーのク
リアおよびシステムの監視を継続して行うことができますが、修正可能なエラー
が繰り返し発生することによって、修正不可能なエラーが発生する可能性があり
ます。
注 – 詳細は、『Sun Fire V20z および Sun Fire V40z サーバー— サーバー管理マニュ
アル』の操作パネルのサーバーメニューオプションの説明を参照してください。これ
らのエラーは、システムイベントログにも書き込まれます。詳細は、81 ページの
「システムイベント」を参照してください。
第 3 章 障害追跡の項目 27
Page 42
ECC エラー
Sun Fire V20z および Sun Fire V40z サーバーでは、1 個の CPU につき 4 枚の DIMM
をサポートできます。
■ 各 CPU の 4 つの DIMM スロットは、バンク 0 およびバンク 1 の 2 つのバンクに
グループ化され、各バンクは 2 つの DIMM スロットで構成されています。
■ DIMM は、一致するペア単位で (一度に 1 つのバンクを) 取り付ける必要がありま
す。バンク内の 2 枚の DIMM のサイズ、タイプ、およびベンダーは、同じである
必要があります。
■ 各 CPU は 2 つの DIMM バンクをサポートできます。各バンクには一致する
DIMM のペアを搭載する必要がありますが、バンク 0 とバンク 1 の間で DIMM
のサイズおよびベンダーを一致させる必要はありません。
ログファイルがメモリー DIMM の ECC エラーまたは問題を報告している場合は、以
降の手順を実行してください。
注 – 使用するサーバーのログファイルの概要は、31 ページの「ログファイル」を参
照してください。
この手順では、ログファイルが CPU0 のバンク 0 、スロット 1 の DIMM のエラーを
報告した場合の例を示します。
1. サーバーの電源を切り、カバーを取り外します。
2. ログファイルで示された DIMM を取り外し、ラベルを付けます。
3. 目視で DIMM を調べて、コネクタに物理的な損傷、ほこり、またはその他の汚れが
ないことを確認します。
4. 目視で DIMM スロットを調べて、物理的な損傷がないことを確認します。スロット
のプラスチックにひび割れまたは破損がないか調べます。
5. DIMM のほこりを取り除き、接続部を清掃して再度取り付けます。DIMM のラベルは
付けたままでもかまいません。
6. システムを再起動します。問題が解消されない場合は、手順 7 に進みます。
7. 再度サーバーの電源を切り、カバーを取り外します。
8. ログファイルで示された DIMM を取り外します。
28 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 43
9. バンクの 2 つのスロットの間で個々の DIMM を交換します。ラッチが固定され、
DIMM が適切に挿入されていることを確認します。
■ この手順を行うと、問題をいずれかの DIMM に特定したり、問題がマザーボード
上のスロットの不具合などのほかの原因によって発生したことを確認したりでき
ます。
■ この例の場合は、CPU0 のバンク 0 から 2 つの DIMM を両方とも取り外して、ス
ロット間で DIMM を交換します。
10. サーバーに電源を入れ、 DIMM エラーを引き起こした処理を実行します。
11. ログファイルを確認します。サンプル出力については、 63 ページの「 ECC 障害」を
参照してください。
12. エラーが CPU0 のバンク 0 、スロット 0 (最初のエラーとは別のスロット) で示され
た場合、問題はスロット 0 の特定の DIMM に関係しています。
または
エラーが CPU0 のバンク 0、スロット 1 ( 最初のエラーと同じスロット) で示された
場合、問題は特定の DIMM に関係していません。この場合、問題の原因は CPU0 ま
たは CPU0 の DDR VRM である可能性があります。
13. 単一の CPU を搭載する Sun Fire V20z サーバーを使用している場合は、これ以上問
題の障害追跡を独自に行うことはできません。交換部品が必要となることがありま
す。
または
2 個以上の CPU をサーバーに搭載している場合は、手順 14 に進みます。
14. ラベルを付けてから、 2 個の CPU の間でメモリー VRM を交換します。
■ この手順を行うと、問題を CPU0 のメモリー VRM に特定したり、問題がその他
の原因によって発生したことを確認したりできます。
■ この例の場合は、CPU0 および CPU1 の VRM を取り外し、これらの CPU の間で
DDR VRM を交換します。
15. サーバーに電源を入れ、 DIMM エラーの原因となった処理を実行します。
16. ログファイルを確認します。
17. エラーが CPU1 (最初のエラーとは別の CPU) で示された場合、問題は最初に CPU0
に取り付けられていた DDR VRM に関係しています。交換部品が必要となることが
あります。
または
エラーが CPU0 のバンク 0、スロット 1 ( 最初のエラーと同じスロット) で示された
場合、問題はメモリー VRM に関係していません。この場合、問題の原因は CPU0 ま
たはマザーボードである可能性があります。交換部品が必要となることがあります。
第 3 章 障害追跡の項目 29
Page 44
インベントリ
現場交換可能ハードウェアコンポーネントまたは現在のソフトウェアのコンポーネン
トとバージョンのリストを表示するには、inventory get all 、inventory get
hardware 、および inventory get software コマンドを使用します。これらの
コマンドの詳細は、『Sun Fire V20z および Sun Fire V40z サーバー— サーバー管理
マニュアル』を参照してください。
Ver si o n 2 .2 以前の NSV を使用している場合に、これより新しいバージョンの NSV
を同じ場所に追加すると、[{-a|--all}] 引数を指定した inventory get
software コマンドがタイムアウトすることがあります。このような場合は、次の手
順に従います。
1. 使用している Version 2.2 の NSV とは別の場所に、新しいバージョンの NSV を移動
し、解凍します。
または
古いバージョンの NSV を確認し、オペレーティングシステムで不要になったフォル
ダを削除します。
2. コマンドを再度実行します。
ライト、LCD 、LED
表 3-4 正面パネルのライト
問題 解決方法または参照先
位置特定ライト
が点滅する
システム障害
LED が点灯する
30 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
ライトの横にある位置特定ライトボタンを押すと、位置特定ライトを点灯
させたり、消灯したりできます。システム管理者は、特定のサーバーの位
置を確認するタスクを軽減するために、位置特定ライトを点灯させます。
位置特定ライトの点滅は、問題を示しているわけではありません。
システム障害 LED ( マシンチェックエラー) ライトは、変化が生じたとき
に点灯します。障害追跡のヒントについては、32 ページの「マシンチェッ
クエラー」、49 ページの「システムイベント」、および 81 ページの「シ
ステムイベント」を参照してください。
Page 45
表 3-4 正面パネルのライト (続き)
問題 解決方法または参照先
プラットフォー
ム電源状態イン
ジケータライト
が点灯しない
操作パネル LCD
が点灯しない
LCD に「 SP
booting」と表示
されたあとにハ
ングアップする
AC への電源接続を確認してください。Sun Fire V20z サーバーでは、背面
パネルにある AC 電源スイッチおよび AC 供給インジケータを確認しま
す。
AC への電源接続を確認してください。Sun Fire V20z サーバーでは、背面
パネルにある AC 電源スイッチおよび AC 供給インジケータを確認しま
す。42 ページの「サービスプロセッサ」の SP のさまざまな起動の問題お
よび解決方法も参照してください。
SP リセットボタンを使用して、SP を再起動してください。SP リセットボ
タンは背面パネル上にあります。
ログファイル
使用している機能によっては、サーバーで次のログファイルが生成されることがあり
ます。
■ IPMI イベントログ - IPMI 機能の詳細は、『サーバー管理マニュアル』を参照し
てください。IPMI ログファイルがいっぱいになると、新規エントリは拒否されま
す。
■ SP イベントログ - 詳細は、81 ページの「システムイベント」および 99 ページの
「サービスプロセッサ、リソース割り当て」を参照してください。
■ 診断ログファイル - 詳細は、53 ページの「診断テストの結果」を参照してくださ
い。
■ TDU ログファイル - 詳細は、4 ページの「障害追跡用ダンプユーティリティー」
および『サーバー管理マニュアル』を参照してください。
第 3 章 障害追跡の項目 31
Page 46
マシンチェックエラー
ここでは、マシンチェックに関連するイベントの考えられる原因と推奨される障害追
跡手順について説明します。
マシンチェックエラーが発生すると、システム障害 LED が点灯します。マシン
チェックエラーは、EEC エラー (28 ページの「ECC エラー」を参照) または VRM
Crowbar イベント (51 ページの「VRM Crowbar 表明」を参照) を示しています。こ
れらのエラーは、システムイベントログで報告されます (81 ページの「システムイベ
ント」を参照)。
表 3-5 マシンチェックエラー
エラー 解決方法または参照先
[Bus Unit]
[Correctable ECC
error.]
[Detected on a
scrub.]
Error detected in
[Data Cache]
[Error IP Valid.]
[Error not
corrected]
[Error occurred at
address
<address>.]
[Error reporting
disabled.]
[InstructionCache]
[Invalid bank
reached]
[Load/Store unit]
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
このエラーは、ECC がオンになっている場合のメモリー ECC エラーを
示します。詳細は、28 ページの「ECC エラー」を参照してください。詳
細は、27 ページの「DIMM 障害」を参照してください。
raw データ: <data> 。このエラーは、CPU エラーまたはメモリーエラー
とともに発生するはずです。詳細は、27 ページの「DIMM 障害」を参照
してください。
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
詳細は、27 ページの「DIMM 障害」を参照してください。
マシンチェック機能がオフになっています。最大限のシステム信頼性を
得るには、このオプションをオンのままにしてください。
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
32 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 47
表 3-5 マシンチェックエラー (続き)
エラー 解決方法または参照先
Machine Check
error detected on
cpu <CPU>
[Machine Check in
Progress.]
[Misc.register
contains more
info.]
[North Bridge]
[Processor state
may have been
corrupted]
[Restart IP Valid.]
[Second error
detected.]
[Un-correctable
ECC error.]
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
このエラーメッセージに含まれるアドレスなどの詳細情報は、正確では
ない可能性があるため、その後の障害追跡に使用するには信頼性に欠け
ます。
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
このエラーは、CPU に不具合があることを示します。この問題を解決す
るには、CPU を交換してください。
このエラーは、メモリー ECC エラーを示します。詳細は、28 ページの
「ECC エラー」を参照してください。詳細は、27 ページの「DIMM 障
害」を参照してください。
ネットワーク接続
注 – ネットワーク接続の詳細は、『Sun Fire V20z および Sun Fire V40z サーバー—
設置マニュアル』および『Sun Fire V20z および Sun Fire V40z サーバー— サーバー
管理マニュアル』を参照してください。
■ SP Ethernet ポートに対して ping を実行できない場合は、操作パネルを使用して
IP アドレスをリセットします。
■ DHCP を使用している場合は、DHCP サーバーが実行中であることを確認しま
す。
第 3 章 障害追跡の項目 33
Page 48
ネットワーク共有ボリューム
注 – ネットワーク共有ボリューム (Network Share Volume、NSV) のインストール、
アップグレード、および管理方法については、『Sun Fire V20z および Sun Fire V40z
サーバー— 設置マニュアル』、『Sun Fire V20z および Sun Fire V40z サーバー—
サーバー管理マニュアル』、および SM コンソールのオンラインヘルプを参照してく
ださい。39 ページの「デフォルト設定の復元」も参照してください。
オペレーティングシステム
使用しているサーバーのオペレーティングシステムのインストールおよび更新につい
ては、『Sun Fire V20z および Sun Fire V40z サーバー—Linux オペレーティングシ
ステムインストールマニュアル』、『Sun Fire V20z および Sun Fire V40z サーバー
— プリインストール Solaris 10 オペレーティングシステムマニュアル』、またはオペ
レーティングシステムのベンダーから提供されるその他のマニュアルを参照してくだ
さい。
■ ECC エラーの詳細は、 28 ページの「 ECC エラー」を参照してください。
■ OS 起動ハングアップの詳細は、 27 ページの「 DIMM 障害」を参照してくださ
い。
操作パネル
注 – 操作パネルのボタンおよびその他のコントロールの使用方法については、『Sun
Fire V20z および Sun Fire V40z サーバー— サーバー管理マニュアル』を参照してく
ださい。
この節では、操作パネル LCD ディスプレイでの問題に対する障害追跡手順について
説明します。
34 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 49
点灯、読み取り可能なテキスト、動作しないボタ
ン
LCD が点灯し、読み取り可能なテキストが表示されても、ボタンが動作しない場合
は、DHCP 設定に問題がある可能性があります。SP が DHCP サーバーを検出できな
い可能性があります。
1. SM コンソールまたは SM コマンドを使用して、SP ネットワークが DHCP に設定さ
れていることを確認します。
2. SP を再起動します。
注 – この症状の原因となる SP の問題の解決方法については、42 ページの「サービ
スプロセッサ」の SP の起動の問題の説明を参照してください。
点灯、読み取り不可能なテキスト
LCD が点灯してもテキストが読み取り不可能な場合は、ケーブルを確認して取り付
け直してください。問題が解消されない場合は、マザーボードに障害が発生している
可能性があります。マザーボードを交換してください。
点灯、テキストなし
LCD が点灯してもテキストが表示されない場合は、次のいずれかが原因である可能
性があります。
■ PIC 更新を実行した場合、この症状は、起動モードが変更された可能性があるた
め、SP を起動する前にデフォルトにリセットする必要があることを示していま
す。この処理を行うには、45 ページの「起動の失敗」および 46 ページの「ダウン
グレード後の起動の失敗」を参照してください。
■ PPCBoot を更新した場合、この症状は、更新によってシステムが損傷したことを
示しています。システムを交換する必要があります。
■ PRS の更新を試みた場合、この症状は、処理が完了しておらず、システムが損傷
したことを示しています。システムを交換する必要があります。
■ 更新を実行しなかった場合は、操作パネルの構成部品に問題がある可能性があり
ます。操作パネルの構成部品を交換してください。
第 3 章 障害追跡の項目 35
Page 50
点灯しない
30 ページの「ライト、LCD 、LED 」で説明しているように、パネルが点灯しない場
合は、ケーブル接続を確認してください。すべてのケーブルがしっかりと取り付けら
れている場合、考えられるその他の原因には、LCD 、操作パネル構成部品、またはマ
ザーボードの問題があります。
PCI または PCI-X ホットプラグ
PCI または PCI-X カードの故障の場合は、次のガイドラインに従います。
PCI または PCI-X ホットプラグ機能のドライバおよび OS によるサポート - PCI また
は PCI-X ホットプラグ機能で問題が発生した場合は、使用しているサーバーにドラ
イバおよびオペレーティングシステムによる適切なサポートがあること、およびサー
バー固有のマニュアルに示されている要件を満たしていることを確認します。
ホットプラグスロットのカードでのエラー - ホットプラグスロットのカードでエラー
が発生した場合は、AMD ホットプラグ制御ユーティリティーを使用してスロットの
電源を取り外してから、PCI ホットプラグデバイスを追加または取り外します。
ダウンロードおよびインストール - カードのメーカーの Web サイトから、最新の
ファームウェア、Option ROM (OPROM 、Option BIOS) 、および使用しているオペ
レーティングシステム用のデバイスドライバをダウンロードします。最初にカードの
ファームウェをインストールし、次に OPROM 、ドライバの順にインストールしま
す。
OPROM の使用可能への切り替え - Ctrl-A (または Ctrl-C 、Ctrl-S 、 Ctrl と任
意のキー) を押して OPROM ベースの構成ユーティリティーの実行を求めるプロンプ
トが表示される SCSI カードを取り付けていても、起動時にこのプロンプトがまった
く表示されないときは、OPROM が使用可能になっていることを確認してください。
この問題は、ボード上のジャンパ設定が原因で発生することがあります。起動中に
F2 を押して BIOS 設定ユーティリティーを実行します。「Advanced 」メニューで、
「PCI Configuration 」を選択してください。問題のカードに対して OPROM 走
査が使用可能になっていることを確認してください。次のようなエラーが表示される
ことがあります。
Expansion ROM not initialized -PCI Mass Storage Controller in slot 3
Bus:3, Device:02, Function:01
このメッセージは、OPROM は使用可能になっているが、OPROM イメージの初期サ
イズが大きすぎて標準の OPROM シャドウ領域に収まらないことを示しています。
つまり、この場合は、カードから起動することができません。カードに起動時の設定
ユーティリティーがある場合は、この機能は使用できません。より多くの OPROM
シャドウ領域を解放するためにほかの OPROM を使用不可にすると、OPROM イ
36 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 51
メージの読み込みが可能になることがあります。この処理を行うには、BIOS 設定
ユーティリティーの「Advanced 」メニューで「PCI Configuration 」を選択して
ください。
注 – BIOS の構成の詳細は、『Sun Fire V20z および Sun Fire V40z サーバー— ユー
ザーマニュアル』を参照してください。
各 OPROM イメージには最初に読み込まれるときの初期サイズがありますが、あと
で減らされるため、残りのサイズは小さくなります。最初に初期サイズをより大きく
してカードを読み込むと、追加の OPROM を収めることが可能になることがありま
す。初期サイズを確認するには、メーカーのマニュアルを参照してください。
OPROM は、次の順序で走査されます。
1. システムボード上のデバイス (ビデオ、 NIC、 SCSI)
2. 物理スロット 1
3. 物理スロット 2
4. 物理スロット 3
5. 物理スロット 6
6. 物理スロット 7
7. 物理スロット 4
8. 物理スロット 5
注 – 起動順序は、BIOS 設定ユーティリティーの「 Boot」メニューで変更できます
が、 OPROM 走査の順序は変更できません。
プラットフォーム OS が起動しない
この問題の原因は、ケーブルの接続不良またはハードウェアの取り付け不良であるこ
とがあります。プラットフォーム OS が起動しない場合は、次の手順に従います。
1. AC 電源が使用可能で、AC 電源コードがサーバーの電源装置の AC コネクタにしっか
りと接続されていることを確認します。電源装置が 2 つあるサーバーを使用してい
る場合は、両方の電源装置がしっかりと接続されていることを確認します。2100
サーバーを使用している場合は、サーバーの背面にある AC スイッチがオンになって
いることを確認します。
第 3 章 障害追跡の項目 37
Page 52
2. プラットフォームではなく SP への電源供給がある場合は、サーバーの電源を切り、
電源コンセントから AC コネクタを外し、システムカバーを取り外します。システム
カバーの取り外し方法については、『ユーザーマニュアル』を参照してください。
a. SCSI 信号ケーブル、SCSI 電源ケーブル、およびその他の内部ケーブルがしっか
りと接続されていることを確認します。
b. すべての DIMM 、 DDR VRM 、および CPU VRM がそれぞれのスロットにしっか
りと取り付けられていることを確認します。
c. サーバーからすべての PCI オプションカードを取り外します。
3. システムカバーを元の位置に取り付けて AC 電源を再接続し、サーバーを再起動しま
す。
■ プラットフォームが起動しない場合は、手順 7 に進みます。
または
■ プラットフォームが問題なく起動し、手順 2 の説明に従って PCI オプションカー
ドを取り外した場合は、手順 4 に進みます。
4. サーバーの電源を切り、 AC 電源を取り外して、システムカバーを取り外します。
5. PCI オプションカードのいずれかを元の位置に取り付けます。
6. システムカバーを元の位置に取り付けて AC 電源を再接続し、サーバーを再起動しま
す。
■ プラットフォームが問題なく起動する場合は、手順 4、手順 5 、および手順 6 を繰
り返して、すべての PCI オプションカードを元の位置に取り付けます。
または
■ PCI オプションカードを元の位置に取り付けたあとにプラットフォームが起動し
ない場合は、問題が個々の PCI オプションカードに特定されます。
7. サーバーの CMOS ジャンパをクリアします。26 ページの「Clear-CMOS ジャンパ」
の手順に従います。
8. サーバーを再起動します。
■ プラットフォームが問題なく起動し、いずれかの PCI オプションカードを取り外
してあった場合は、手順 5 および手順 6 に従って、これらのオプションカードを
元の位置に取り付け、問題の原因である可能性のあるオプションカードを特定し
ます。
または
■ プラットフォームが起動しない場合は、マザーボードを交換する必要がある可能
性があります。
38 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 53
注 – Version 2.3 以降では、IPMI 起動オプションのパラメタを設定して CMOS をク
リアできます。これにより、システムカバーを取り外し、ジャンパを動作位置から固
定位置に移動する必要がなくなります。
PPCBoot - Bad CRC Error
このエラーメッセージが示しているエラーは、重大なエラーではありません。この
メッセージの原因となる状況は、シリアルポート経由で接続し、フラッシュ更新を実
行して、PPCBoot 更新が完了する前に SP を切断またはリセットした場合にのみ発生
します。
「Bad CRC Error 」メッセージが表示されると、システムによってただちに必要な環
境変数が取得され、適切なパーティションにこれらの環境変数が書き込まれます。
PPCBoot 更新が完了する前に SP を再度リセットしないかぎり、次回の再起動時にこ
のエラーメッセージが表示されることはありません。
デフォルト設定の復元
注 – 関連情報は、47 ページの「ユーザーアカウントおよび設定の保持の失敗」に記
載されています。
SP で一般的な問題が発生した場合や、単に SP の最初の設定を復元する場合には、
sp reset to default-settings コマンドを使用して、選択した設定を復元でき
ます。
注 – また、操作パネルの LCD ボタンを使用して、デフォルト設定を復元することも
できます。詳細は、『Sun Fire V20z および Sun Fire V40z サーバー— サーバー管理
マニュアル』を参照してください。
SP 構成ファイルは、/pstore ディレクトリの永続的なファイルシステムに格納され
ています。SP が起動すると、この SP 構成ファイル内の既存の構成情報が確認されま
す。ただちに再起動する --nowait オプションを指定していないかぎり、SP はデ
フォルトで、sp reset to default-settings コマンドの実行後 60 秒で再起動
します。再起動を示すメッセージが 20 秒ごとに表示されます。
sp reset to default-settings {-a|--all}
第 3 章 障害追跡の項目 39
Page 54
[{-c|--config}] [{-n|--network}] [{-s|--ssh}]
[{-u|--users}] [{-W|--nowait}]
次に例を示します。
sp reset to default-settings {-a|--all}
--all オプションは、イベント、 IPMI 設定など、すべての SP 設定をデフォルトの
設定に戻します。ファイルはただちに削除されます。
注 – IPMI 設定のみをリセットする場合は、SP コマンドを使用しないでください。
代わりに、IPMI コマンド ipmi reset を使用してください。IPMI およびすべての
コマンドの詳細は、『Sun Fire V20z および Sun Fire V40z サーバー— サーバー管理
マニュアル』を参照してください。
SCSI 構成ユーティリティー
注 – サーバーに付属している SCSI 構成ユーティリティーの使用方法については、
『Sun Fire V20z および Sun Fire V40z サーバー— ユーザーマニュアル』を参照して
ください。
使用不可の「RAID Properties 」メニュー項目
この問題を解決するには、次の点を確認してください。
■ 起動アダプタリストに目的のアダプタが含まれているかどうか
■ LSI アダプタに統合ミラー化 (IM) ファームウェアがあるかどうか
■ システムの各 Fusion-MPT アダプタにすでに IM ボリュームが作成されているかど
うか
■ 「Global Properties 」画面で「 Disable Integrated RAID」が「Yes 」に設定されて
いるかどうか
■ 選択した SCSI バスに 2 つ以上のディスクがあるかどうか
40 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 55
IM ボリュームによる追加 SCSI ID の使用
この場合、 2 つのミラー化ディスクのある IM ボリュームは、バス上にない追加 SCSI
ID を使用します。これは、 IM ボリュームの物理ディスクは、 IM ボリュームと同じ
SCSI ID を持たないためです。また、構成ユーティリティーでは、ボリューム ID と
して現在定義されている ID で物理ディスクの設定を行うことはできません。
IM ボリュームの構成を変更して、追加 SCSI ID を使用せずに同じボリューム ID を
保持できるようにするには、次の手順を実行します。
1. 「RAID Properties 」画面に移動します。主ディスクが使用している SCSI ID と IM
ボリュームが使用している SCSI ID を確認します。IM ボリュームのその他のディス
クの SCSI ID も確認します。
2. IM ボリュームディスクを「No 」に設定して構成内容を保存し、ボリュームの構成を
解除します。
3. 「RAID Properties 」画面に戻り、次のように IM ボリュームを再構成します。
■ 主ディスクの ID を以前と同じにします。
■ 二次ディスクの ID を、ボリュームが以前使用していた ID にします。
■ ホットスペアの SCSI ID を、二次ディスクが以前使用していた SCSI ID にしま
す。
4. 構成内容を保存するには、Esc を押して画面上の指示に従います。これにより IM ボ
リュームが作成され、自動の再同期化が行われます。
構成ユーティリティーでのディスクの選択の無効
化
この場合、構成ユーティリティーで、IM ボリューム用にディスクを選択できませ
ん。
ディスクを選択できない原因を確認するには、「RAID Properties 」画面で F4 を押し
ます。「Size 」列に、各ディスクの診断コードが表示されます。次の表に、コードの
定義を示します。
表 3-6 ディスクの診断コード
コード 定義
0
1
2
3
正常な状態です。
ディスクからシリアル番号を取得できません。
ディスクに SMART 機能があるかどうかを確認できません。
ボリュームに対して最大数のディスクがすでに構成されています。
第 3 章 障害追跡の項目 41
Page 56
表 3-6 ディスクの診断コード (続き)
コード 定義
4
5
6
7
8
9
10
11
12
13
返された照会データは、ディスクが wide 、qtag 、disconnect をサポート
しないか、ディスクのセクターサイズが 512 バイトでないことを示してい
ます。
デバイスのプロパティー画面で、ユーザーがディスクの qtag または
disconnect を使用不可にしました。
ディスクのパーティションが、すでに選択した二次ディスクまたはホット
スペアディスクによってミラー化できるサイズを超えています。
ディスクが十分に大きくないため、選択した主ディスクに含まれている
パーティションをミラー化できません。
ホットスペアが検出されましたが、IM ボリュームが存在しません。ホッ
トスペアを削除して、構成内容を保存する必要があります。
ディスクパーティションは、ディスクの最後の 32 セクター (16K バイト)
の一部を使用しています。最後の 32 セクターは、IR (Integrated RAID) の
内部処理に必要となります。
ディスクのセクターサイズが 512 バイトではありません。
デバイスが、互換性のあるデバイスタイプではありません。デバイスは、
取り外し不可能なディスクである必要があります。
ホットスペアのサイズが小さすぎるため、ボリュームをミラー化できませ
ん。
ボリュームに対して最大数のディスクがすでに構成されています。
サービスプロセッサ
ここでは、SP に関連する問題について説明します。
注 – SP の設定、更新、および使用方法については、『Sun Fire V20z および Sun
Fire V40z サーバー— 設置マニュアル』および『 Sun Fire V20z および Sun Fire V40z
サーバー— サーバー管理マニュアル』を参照してください。
42 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 57
操作パネルに「Booting SP ...」が表示される
SP イメージが破壊されると、 SP は起動に失敗し、操作パネル LCD に「Booting
SP」メッセージが表示された状態が続きます。数分間そのままにすると、障害ライ
トが点滅し始め、SP リセットボタンと正面のボタンが操作不可能になります。この
問題が発生すると、操作パネルを使用して SP にアクセスしたり、SP を設定したりす
ることができなくなり、SP によるシステムの監視または管理が不可能になります。
このような場合は、復旧処理が必要となります。この処理は、AC 電源をリセットし
たあとで操作パネルを使用して実行します。
1. 『サーバー管理マニュアル』の手順に従って、Java 更新サーバーを設定します。
サーバーの IP アドレスおよびポート番号を記録します。
2. AC 電源からシステムを切り離します。
3. AC 電源にシステムを再接続します。 SP が起動し始め、正面パネルに次のように表
示されます。
SP Boot: <3..2..1> secAny Key for menu
4. 3 秒以内に、操作パネルの「選択」ボタン (中央) を押して、SP 起動プロセスを中断
します。この処理を行うと、操作パネルの LCD に次のように表示されます。
Menu:
Update SP?
5. 「選択」ボタンを押して、更新処理を選択します。操作パネルの LCD に、次のよう
に表示されます。
SP's IP addr:
0.0.0.0
6. 『サーバー管理マニュアル』で説明する手順に従って、操作パネルのボタンを使用し
て SP の IP アドレス、ネットマスク、およびゲートウェイアドレスを指定および入
力します。SP のネットワーク情報を指定すると、次のように表示されます。
Update from IP:
0.0.0.0
7. 手順 1 で設定した Java 更新サーバーの IP アドレスおよびポート番号を、前の手順
と同様に正面パネルのボタンを使用して指定します。
8. 「選択」ボタン (中央) を押して、更新を確認します。
SP の更新が行われます。更新サーバーおよび操作パネルで更新処理を監視できるよ
うになります。
第 3 章 障害追跡の項目 43
Page 58
注 – 更新サーバーからの出力が表示されない場合、または操作パネルが「Booting
SP 」の状態に戻る場合は、SP が更新サーバーにアクセスできなかったことを示しま
す。ネットワーク接続および設定を確認して、再度更新を実行してください。
更新が完了すると、SP は完全に操作可能な状態になります。
SP の継続的な起動
通常、初期化の失敗は、DHCP アドレス指定または NSV サーバーのいずれかに関連
するネットワーキングの問題によって発生します。
■ DHCP に対する設定で、DHCP サーバーが応答しない、または応答に非常に時間
がかかる場合には、SP の初期化に時間がかかり過ぎて、PRS チップによって SP
がリセットされることがあります。このような場合は、DHCP サーバーの問題を
解決するか、静的アドレス指定に切り替えてください。
■ NSV サーバーが応答しない、または応答に時間がかかる場合は、初期化が失敗す
ることもあります。この場合は、NSV サーバーの問題を解決するか、sp delete
mount コマンドを使用して SP から NSV マウントを解除してください。
通常、外部アクセスが使用可能になっている場合にネットワーキングの問題または一
般的な接続の問題が発生すると、ハートビートが消失します。ハートビートの消失
は、センサーの動作停止、アプリケーション障害などの SP 上で断続的に発生する問
題が原因であることもあります。
■ DHCP/静的 IP アドレスなどの SP ネットワーク設定が引き続き有効であること、
および NSV マウントを使用する場合は、NSV マウントポイントが有効で使用可
能になっていることを確認してください。
■ SP を再起動して、問題が引き続き発生するかどうかを確認してください。
■ 問題が引き続き発生する場合は、問題を解決するために、システムの AC 電源の
再投入が必要となることがあります。
■ 可能な場合は、正常であるとわかっているイメージから sp update flash all
コマンドを実行して、SP ソフトウェアの再読み込みを試してください。
注 – SP の起動がハングアップした場合は、サーバーの背面パネルにある SP リセッ
トボタンを押してください。43 ページの「操作パネルに「Booting SP ... 」が表示さ
れる」も参照してください。
44 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 59
起動の失敗
起動モードが変更されている可能性があります。起動のデフォルト設定をリセットし
てください。この処理を行うには、事前に次のいずれかを行います。
■ マネージャーアカウントまたは保守アカウントを使用して SP にログオンします。
または
■ PC をシリアルポートに接続します。
SP を使用する場合
1. サーバーの電源を切り、 AC 電源コードを外して、システムカバーを取り外します。
2. 66 MHz PCI-X スロットの端にある TH84 ピンセットに、ジャンパを取り付けます。
この場合、必要に応じて J110 または J125 の CMOS ジャンパを使用します。
3. SP への SSH セッションを確立します。『 Sun Fire V20z および Sun Fire V40z サー
バー— 設置マニュアル』の手順に従って、必要に応じて初期マネージャーアカウント
を作成します。
4. 保守レベルのアカウントを作成するには、次のように入力します。
access add user -g service -u s -p s3
5. この保守アカウントに su ( スーパーユーザー) を割り当てるには、次のように入力し
ます。
su s
6. root アカウントを使用可能にするには、次のように入力します。
sp set root on
7. プロンプトへの応答として、保守アカウントのパスワードと新しい root アカウント
のパスワードを指定します。$ 入力プロンプトで、root アカウントに su を割り当て
るために、次のように入力します。
su -
8. 次に表示されるプロンプトへの応答として、手順 5 で設定した root アカウントのパ
スワードを指定します。# 入力プロンプトで、次のように入力します。
setenv uboot 0
9. サーバーの電源を切り、 AC 電源を外して、システムカバーを取り外します。
10. ジャンパ TH84 を取り外します。
11. システムカバーを元の位置に取り付けて AC 電源を再接続し、サーバーに電源を入れ
ます。
SP が正常に起動され、 LCD に適切なテキストが表示されます。
第 3 章 障害追跡の項目 45
Page 60
シリアルポートに接続された PC を使用する場合
1. サーバーの電源を切り、 AC 電源コードを外して、システムカバーを取り外します。
2. 66 MHz PCI-X スロットの端にある TH84 ピンセットに、ジャンパを取り付けます。
この場合、必要に応じて J110 または J125 の CMOS ジャンパを使用します。
3. J19 のジャンパを移動して、 SP 出力をシリアルポートに設定します。
4. PC をシリアルポートに接続します。
5. システムカバーを元の位置に取り付け、 AC 電源コードを再接続します。
6. サーバーの電源を入れます。「 Serial Power」に、次のように表示されます。
Hit any Key to Stop Autoboot = 0.
7. ただちにスペースバーを押します (起動から 3 秒以内 )。
8. プロンプトで、次のように入力します。
saveenv
9. サーバーの電源を切り、 AC 電源コードを外して、システムカバーを取り外します。
10. ピンセット TH84 に取り付けたジャンパを取り外します。
11. システムカバーを元の位置に取り付けて AC 電源コードを再接続し、サーバーに電源
を入れます。
SP が正常に起動され、 LCD に適切なテキストが表示されます。
ダウングレード後の起動の失敗
SP の起動が開始された直後にこの問題が発生した場合は、操作パネルを使用してフ
ラッシュを更新します。詳細は、『Sun Fire V20z および Sun Fire V40z サーバー—
設置マニュアル』および『Sun Fire V20z および Sun Fire V40z サーバー— ユーザー
マニュアル』を参照してください。
注 – sp update flash all コマンドでは、pstore データは更新されません。
sp update flash all コマンドの詳細は、『 Sun Fire V20z および Sun Fire V40z
サーバー— サーバー管理マニュアル』を参照してください。
46 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 61
ユーザーアカウントおよび設定の保持の失敗
SP 状態情報の保持に使用されるフラッシュパーティションが破壊されると、SP の再
起動または AC 電源のリセットを行なったあとにユーザーアカウントおよび設定が保
持されなくなる場合があります。この問題が発生した場合は、SP を再起動するたび
に、目的の設定を再設定する必要があります。この問題は、SP が操作可能でアクセ
ス可能であっても発生することがあります。
この問題を特定するには、SP にログオンして mount コマンドを入力します。
/pstore のエントリは表示されません。
localhost $ mount
/dev/rd/0 on / type ext2 (rw)
none on /dev type devfs (rw)
proc on /proc type proc (rw)
localhost $
この問題が発生した場合は、SSH セッションを使用して次の復旧処理を実行しま
す。
1. SP への SSH セッションを確立します。『サーバー管理マニュアル』の手順に従っ
て、必要に応じて初期マネージャーアカウントを作成します。
2. 保守レベルのアカウントを作成するには、次のように入力します。
access add user -g service -u s -p s3
3. この保守アカウントに su を割り当てるには、次のように入力します。
su s
4. root アカウントを使用可能にするには、次のように入力します。
sp set root on
5. プロンプトで、保守アカウントのパスワードと新しい root アカウントのパスワード
を指定します。
6. この root アカウントに su を割り当てるには、次のように入力します。
su -
7. プロンプトで、手順 5 で設定した root アカウントのパスワードを指定します。
8. SP 状態情報の保存に使用するフラッシュパーティションを消去するには、次のよう
に入力します。
eraseall /dev/mtd/flashfs
9. SP を再起動するには、次のように入力します。
sp reboot
再起動すると、SP は完全に操作可能な状態になります。
第 3 章 障害追跡の項目 47
Page 62
ネットワーク共有ボリュームへのマウント
NSV に SP マウントを追加しようとしたときにアクセス権エラーが表示される場合
は、遠隔マウントに読み取り権および書き込み権が付与されていることを確認してく
ださい。
永続的な記憶領域の問題
使用しているサーバーで利用可能な任意の方法によってシステムイベントを監視して
いる場合は、永続的な記憶領域の問題に関するエラーメッセージが表示されることが
あります。通常の処理時に永続的な記憶領域の容量が不足することは、あまりありま
せん。root アクセス権を使用して永続的な記憶領域にほかのファイルを配置していた
場合に、この領域の容量が不足したときは、これらのファイルを削除してください。
次に、必要に応じて構成ファイルを削除してください。たとえば、access delete
trust 、access delete public key 、sensor set -R 、sp delete event
などを使用します。
システムイベントおよび推奨される障害追跡手順のリストについては、81 ページの
「システムイベント」を参照してください。
使用可能なすべてのイベント監視方法については、『Sun Fire V20z および Sun Fire
V40z サーバー— サーバー管理マニュアル』を参照してください。
SSH スクリプトのハングアップ
コンソールコマンドを実行するスクリプトで SSH を使用する場合、 {-W|-nowait} オプションは、実行するコマンドのパラメタとしてではなく、 SSH のパラ
メタとして適用されます。コマンドが実行されるとすぐに SSH が確実に復帰するよ
うにするには、SSH オプションの {-n|--no platform} と {-f|--forced} を {-
W|--nowait} オプションとともに使用します。
次に例を示します。
ssh -n -f manager@10.10.20.30 "platform set os state update-bios -i
10.10.100.200 -p 5555 -r LATEST -W"
更新の失敗
SP を更新しようとして失敗した場合は、更新サーバーが読み込まれているかどう
か、指定した IP およびポート番号が正しいかどうかを確認してください。
BIOS を更新しようとして失敗した場合は、BIOS イメージのバージョンが正しいかど
うかを確認してください。
48 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 63
注 – 更新サーバーの使用方法については、『Sun Fire V20z および Sun Fire V40z
サーバー— サーバー管理マニュアル』を参照してください。
システムイベント
システムイベントは、システムの問題または発生する可能性のある問題についての重
要な情報を提供します。システムイベントは、次のいずれかの方法を使用して監視で
きます。
■ sp get events コマンドを使用します。このコマンドおよびその他のコマンド
の詳細は、『Sun Fire V20z および Sun Fire V40z サーバー— サーバー管理マニュ
アル』および SM コンソールのオンラインヘルプを参照してください。
■ SM コンソールを使用します。SM コンソールに表示されるすべてのイベントは、
システムイベントログにも記録されます。Web ベースの SM コンソールの詳細
は、『Sun Fire V20z および Sun Fire V40z サーバー— サーバー管理マニュアル』
を参照してください。
■ 操作パネルを使用します。操作パネルに表示されるすべてのイベント、またはシ
ステム障害ライトが点灯するすべてのイベントも、システムイベントログに記録
されます。操作パネルの詳細は、『Sun Fire V20z および Sun Fire V40z サーバー
— サーバー管理マニュアル』を参照してください。
■ SNMP (ネットワーク管理用プロトコルの一種。Simple Network Management
Protocol の略) を使用します。特定のイベントが発生した場合に通知を発行するよ
うに SNMP を設定できます。SNMP 統合の詳細は、『Sun Fire V20z および Sun
Fire V40z サーバー— サーバー管理マニュアル』を参照してください。
■ Intelligent Platform Management Interface (IPMI) を使用します。IPMI システム
イベントログには、いくつかの種類のシステムイベントが記録されます。IPMI シ
ステム管理および IPMI システムイベントログの詳細は、『Sun Fire V20z および
Sun Fire V40z サーバー— サーバー管理マニュアル』を参照してください。
システムから、問題を評価する場合に使用できる情報が提供されます。システムが返
す情報の形式および種類は、前述した 4 つの監視方法によって若干異なります。この
情報には、次の項目が含まれている可能性があります。
■ コンポーネントの名前
■ コンポーネントの種類 (ソフトウェアアップデート、ハードウェアマシンチェック
など)
■ イベントの重要度
■ イベントの説明を示す簡単なメッセージ
■ イベントの説明を示す詳細なメッセージ
第 3 章 障害追跡の項目 49
Page 64
イベントの参照 - システムイベントが発生すると、正面パネルのシステム障害 LED
が点滅します。警告の原因となった重大イベントを表示するには、sp get events
コマンドを実行します。
システム障害 LED のリセット - システム障害 LED をリセットするには、 SP イベン
トログから重大イベントを削除するか、ログを完全に消去する必要があります。
消去 - イベントログをすべて消去するには、sp delete event -a コマンドを実行
します。
特定のイベントの削除 - 選択したイベントをログから削除するには、sp delete
event event-id-number コマンドを実行します。
注 – 起こりうるすべてのシステムイベントに関する詳細情報および特定の障害追跡
手順については、付録 B「システムイベント」を参照してください。
サーマルトリップイベント
使用している CPU で温度が上昇 (サーマルトリップ) すると、プラットフォームが停
止されたことを示すイベントが発行されます。次に例を示します。
CPU 0 has thermally tripped and shut down. Powering off System.
この状態が発生すると、正面パネルのシステム障害 LED が点滅します。この状態を
修正するには、次の手順に従います。
1. ファンの故障、動作環境の温度の上昇、カバーの長時間にわたる取り外しなど、サー
マルトリップの原因である通気の問題を解消します。
2. システムの温度が下がったあと、2 つの電源装置のプラグを外して、システムに接続
されたすべての AC 電源を 30 秒間切ります。
3. 再度システムに AC 電源を接続します。
4. システムを正常に起動します。
50 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 65
VRM Crowbar 表明
VRM Crowbar 表明は、CPU VRM または DDR VRM で、電圧状態または温度状態
がしきい値を超えたことを検出すると発生します。この問題が発生すると、SP また
は PRS のいずれかによってシステムが強制的に停止されます。通常、VRM は
Crowbar 信号によって Power Good 信号の確認を停止するため、PRS がシステムを
停止します。
この状況が解消されたあとは、システムにふたたび電源を投入できます。Crowbar
が表明されている間は、システム障害 LED が点滅し、正面パネルの電源ボタン、
platform set power コマンド、および platform os state コマンドは使用不
可になります。
注 – 電源装置および Power Good 信号イベントの詳細は、81 ページの「システムイ
ベント」を参照してください。すべてのマシンチェックエラーの詳細は、32 ページ
の「マシンチェックエラー」を参照してください。
第 3 章 障害追跡の項目 51
Page 66
52 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 67
付録 A
診断テストの結果
ここでは、問題の原因を判別する場合に役立つことがある、診断テストに関する詳細
情報について説明します。この詳細情報には、注釈が付けられたテスト出力、テスト
のアルゴリズムに関する説明、発生する可能性があるテスト失敗の事例、障害追跡に
関する追加の提案事項などがあります。
テストの説明
この付録では、診断テストで実行する手順、および障害を引き起こす可能性があるコ
ンポーネントについて説明します。
■ -n 引数を使用しない場合は、診断を開始する前にプラットフォームをオフにして
おく必要があります。
■ 診断を開始すると、プラットフォームに電源が入り、スタンバイしていないファ
ンが動作して、プラットフォーム診断システムの読み込みが開始されます。
■ diags start -n コマンドを使用してプラットフォームモード以外のモードで診
断を開始すると、プラットフォームの現在の状態をそのまま維持しながら、SP 診
断モジュールのみを実行できます。このモードでは、メモリー、ストレージ、お
よび NIC のテストモジュールは使用できません。
53
Page 68
電圧
電圧制限テストでは、各電圧がその電圧に対して定義されている上限と下限の範囲内
に収まっているかどうかを確認します。
電圧調整
注 – 特定の電圧で調整機能がサポートされている場合は、調整機能の動作テストを
行います。
電圧調整障害基準は、公称調整での計測値の± 2% になります。ただし、Bulk 3.3V
S5 での低調整の場合は例外で、trimHi > trimNom > trimLo となります。
制限テストでは、テスト対象の電圧に関連付けられている最初の調整設定が読み取ら
れます。その後、アナログ・デジタル変換 (ADC) の電圧が読み取られます。
電圧が制限内である場合は、診断によって電圧が再度読み取られます。調整は公称、
高、低の順に設定され、各計測値が変数として保存されます。公称設定、低設定、高
設定用の実際のコードは、VRM 、CPU 、および電源装置によって異なります。
電圧計測値
監視対象の電圧の公称値がそれぞれ 2.0 V よりも高い場合は、分圧器ネットワークに
よって 2.0 V に標準化されたあと、ADC 入力に加えられます。ADC の入力範囲は、
0.0 ~ 2.5 V です。電圧は、次のように計算します。
電圧 = 計測値 * 2.5 / 4096
結果は、テスト対象のネットワークの公称電圧に基づいて調整されます。たとえば、
VCC_120_S0 (12 V) の場合、電圧 (V) は 6.0 で乗算されたものです。電圧は分圧器
ネットワークで 6 で除算され、公称値 2.0 V の入力が算出されます。
電圧は 5 回読み取られ、結果は 5 回分の計測値の平均になります。
54 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 69
テスト結果
調整しない電圧、合格
limits.bulk.v2_5-s0 88 Passed
Test Details:
Actual: 2.485
Nominal: 2.500
Maximum Limit: 2.625
Minimum Limit: 2.375
Sensor: Bulk 2.5V S0 voltage (ID=bulk.v2_5-s0)
Component(s): Motherboard (ID=planar.vpd)
調整電圧、合格
limits.bulk.v3_3-s0 91 Passed
Test Details:
Actual Trim High: 3.400
Actual Trim Nominal: 3.321
Actual Trim Low:: 3.237
Nominal: 3.300
Maximum Limit: 3.465
Minimum Limit: 3.135
Sensor: Bulk 3.3V S0 voltage (ID=bulk.v3_3-s0)
Component(s): Motherboard (ID=planar.vpd)
制限を超えた電圧の障害
limits.bulk.v1_8-s5 46 FAILED
Failure Details:
Failure: Voltage exceeds maximum limit.
Actual: 1.932
Nominal: 1.800
Maximum Limit: 1.890
Minimum Limit: 1.710
Sensor: Bulk 1.8V S5 voltage (ID=bulk.v1_8-s5)
Component(s): Motherboard (ID=planar.vpd)
付録 A 診断テストの結果 55
Page 70
ハードウェア障害
limits.bulk.v1_8-s5 46 FAILED
Failure Details:
Failure: Unable to set voltage trim.No such device
or address.
Sensor: Bulk 1.8V S5 voltage (ID=bulk.v1_8-s5)
Component(s): Motherboard (ID=planar.vpd)
ファン
このテストでは、ファンの最高回転速度が仕様の範囲内であり、ファンの回転速度が
制御可能かどうかを確認します。
テストを開始すると、すべてのファンがフル回転するように設定されます。この設定
では、内部制御ループを省略し、可能なかぎり短時間でファンの回転速度が最大限に
なるようにします。ファンが目標の速度で 24 秒間安定すると、最大の回転速度が記
録されます。次に、ファンが低速で回転するように設定されます。ファンが目標の速
度で 24 秒間安定すると、低速での回転速度が記録されます。回転速度の計測値の上
限と下限が比較され、テストが失敗したかどうかが判定されます。
ファンの回転速度は、漸近的に設定ポイントに近づいても、目的の範囲をわずかに超
えた値になることがあります。直列に並んだファン 0 と 1 、ファン 2 と 3、ファン 4
と 5 では、風下のファン 1 、3 、5 の速度が約 1000 RPM 増加するという特徴を示し
ています。各ファンコントローラには、± (プラスマイナス) 10% に指定された内部
クロックがあります。このパーセントは、温度や電圧によって変化します。
合格または障害を判別するための許容範囲として、現在は、上限で -10/+35% ( マイ
ナス 10% からプラス 35%) 、下限で± 15% ( マイナス 15% からプラス 15%) の誤差が
許容されています。
ファンコントローラのプログラミング
テストでは、ファンコントローラを操作する前にファンコントローラの初期状態が保
存されます。これにより、テストが完了したあとにこの初期状態を復元できます。
各コントローラは、一次および二次の 2 個のファンを管理します。各ファンには、回
転ごとに 2 パルスを生成する回転速度計出力があります。マスターファンの回転速度
計出力 (tach0) は、コントローラの内部制御ループのフィードバック信号です。ス
レーブファンの回転速度計出力 (tach1) は、スレーブファンの回転速度を読み取る場
合にのみ使用されます。コントローラでは、フル回転のオンとオフの制御のほかに、
オープンループ処理またはクローズループ処理がサポートされています。
56 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 71
テスト結果
次の出力例は、すべて Sun Fire V40z サーバーの結果です。Sun Fire V20z サーバー
でも同様の出力結果が得られますが、ファングループの数が少なくなります。
ファン、合格
speed.allFans 2 Passed
Test Details:
fan1.tach Passed
Controller: fan-ctrl2
High Rated: 8000
High Actual: 7920
High Delta: -1.01%
High Limits: -10/+35%
Low Setpoint: 6160
Low Expected: 6098
Low Actual: 6780
Low Delta: 10.05%
Low Limits: -/+15%
Sensor: Fan 1 measured speed (ID=fan1.tach)
Component(s): Fan 1 (ID=NA)
fan2.tach Passed
Controller: fan-ctrl2
High Rated: 8000
High Actual: 8580
High Delta: +6.76%
High Limits: -10/+35%
Low Setpoint: 6160
Low Expected: 6607
Low Actual: 7320
Low Delta: 9.75%
Low Limits: -/+15%
Sensor: Fan 2 measured speed (ID=fan2.tach)
Component(s): Fan 2 (ID=NA)
fan3.tach Passed
Controller: fan-ctrl3
付録 A 診断テストの結果 57
Page 72
High Rated: 8000
High Actual: 8100
High Delta: +1.23%
High Limits: -10/+35%
Low Setpoint: 6160
Low Expected: 6237
Low Actual: 6900
Low Delta: 9.61%
Low Limits: -/+15%
Sensor: Fan 3 measured speed (ID=fan3.tach)
Component(s): Fan 3 (ID=NA)
fan4.tach Passed
Controller: fan-ctrl3
High Rated: 8000
High Actual: 8760
High Delta: +8.68%
High Limits: -10/+35%
Low Setpoint: 6160
Low Expected: 6745
Low Actual: 7320
Low Delta: 7.85%
Low Limits: -/+15%
Sensor: Fan 4 measured speed (ID=fan4.tach)
Component(s): Fan 4 (ID=NA)
高速回転での障害
speed.allFans 1 FAILED
Failure Details:
fan1.tach FAILED
Failure: fan1 is excessively fast at high speed
setting; inlet air path may be obstructed.
Controller: fan-ctrl2
High Rated: 8000
High Actual: 10900
High Delta: +36.25%
High Limits: -10/+35%
58 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 73
Low Setpoint: 6160
Low Expected: 6329
Low Actual: 6900
Low Delta: 8.27%
Low Limits: -/+15%
Sensor: Fan 1 measured speed (ID=fan1.tach)
Component(s): Fan 1 (ID=NA)
speed.allFans 2 FAILED
Test Details:
fan1.tach FAILED
Failure: fan1 is too fast at low setting.
Controller: fan-ctrl2
High Rated: 8000
High Actual: 7920
High Delta: -1.01%
High Limits: -10/+35%
Low Setpoint: 6160
Low Expected: 6098
Low Actual: 7200
Low Delta: 16.88%
Low Limits: -/+15%
Sensor: Fan 1 measured speed (ID=fan1.tach)
Component(s): Fan 1 (ID=NA)
低速回転での障害
speed.allFans 1 FAILED
Failure Details:
fan1.tach FAILED
Failure: fan1 is too slow at low setting.
Controller: fan-ctrl2
High Rated: 8000
High Actual: 8760
High Delta: +8.68%
High Limits: -10/+35%
付録 A 診断テストの結果 59
Page 74
Low Setpoint: 6160
Low Expected: 6329
Low Actual: 5200
Low Delta: -18.46%
Low Limits: -/+15%
Sensor: Fan 1 measured speed (ID=fan1.tach)
Component(s): Fan 1 (ID=NA)
speed.allFans 2 FAILED
Failure Details:
fan1.tach FAILED
Failure: fan1 is too slow at high setting.
Controller: fan-ctrl2
High Rated: 8000
High Actual: 7000
High Delta: -14.28%
High Limits: -10/+35%
Low Setpoint: 6160
Low Expected: 6098
Low Actual: 6780
Low Delta: 10.05%
Low Limits: -/+15%
Sensor: Fan 1 measured speed (ID=fan1.tach)
Component(s): Fan 1 (ID=NA)
60 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 75
メモリー
メモリーテストは、読み込み可能なカーネルモジュールおよびユーザー空間コンポー
ネントとして実装されます。カーネルモジュールには、実際にほとんどのテストを実
行する ioctl 機能が実装されています。
注 – 2.x.x.x よりも前のバージョンでは、メモリーテストを実行する前に BIOS 設定
でインタリーブを無効にしておく必要があります。2.x.x.x 以降のバージョンでは、
BIOS でインターリーブを無効にしないでください。
マーチテスト
データは、メモリーの下部から先頭に向かって書き込まれます。まず、すべて 0x0 を
書き込みます。次に、0x0 を読み取って確認し、0x5 を書き込みます。0x5 を読み
取って確認し、0x0 を書き込みます。次に、メモリーの先頭から下部に向かって読み
取ります。0x0 を読み取って確認し、0x5 を書き込みます。0x5 を読み取って確認
し、0x0 を書き込みます。次に、0x0 を読み取って確認します。0x5 を 0xa に置き換
えて、この処理全体を繰り返します。
RandAddr テスト
データは、メモリーの下部から先頭に向かって書き込まれます。メモリーデータの場
所がアドレス空間に書き込まれます。次に、アドレス空間に対してランダムチェック
を実行します。アドレス空間に目的のアドレスと同じデータが存在しないと、このテ
ストは失敗します。
保持テスト
データは、メモリーの下部から開始して先頭に向かって書き込まれます。このテスト
は、市松模様状の配置になるように、メモリーに 0x5 と 0xa を交互に書き込みます。
100 ミリ秒間一時停止したあと、メモリーを読み取って 0x5 および 0xa を確認しま
す。
付録 A 診断テストの結果 61
Page 76
テスト結果
メモリーテスト、合格
march.allDimms PF3 Passed
Test Details:
Memory Configuration: Total: 3072Mb
CPU0-1024Mb CPU1-2048Mb
CPU0: Width[128] Addr 0 - 3fffffff
DIMM 0 256Mb Addr 0000000000 - 001fffffff Even Quad Word
DIMM 1 256Mb Addr 0000000000 - 001fffffff Odd Quad Word
DIMM 2 256Mb Addr 0020000000 - 003fffffff Even Quad Word
DIMM 3 256Mb Addr 0020000000 - 003fffffff Odd Quad Word
randaddr.allDimms PF4 Passed
Test Details:
Memory Configuration: Total: 3072Mb
CPU0-1024Mb CPU1-2048Mb
CPU0: Width[128] Addr 0 - 3fffffff
DIMM 0 256Mb Addr 0000000000 - 001fffffff Even Quad Word
DIMM 1 256Mb Addr 0000000000 - 001fffffff Odd Quad Word
DIMM 2 256Mb Addr 0020000000 - 003fffffff Even Quad Word
DIMM 3 256Mb Addr 0020000000 - 003fffffff Odd Quad Word
retention.allDimms PF5 Passed
Test Details:
Memory Configuration: Total: 3072Mb
CPU0-1024Mb CPU1-2048Mb
CPU0: Width[128] Addr 0 - 3fffffff
DIMM 0 256Mb Addr 0000000000 - 001fffffff Even Quad Word
DIMM 1 256Mb Addr 0000000000 - 001fffffff Odd Quad Word
DIMM 2 256Mb Addr 0020000000 - 003fffffff Even Quad Word
DIMM 3 256Mb Addr 0020000000 - 003fffffff Odd Quad Word
62 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 77
サービス障害
retention.allDimms PF1 FAILED
Failure Details:
Failure: Unable to load services.
ECC 障害
march.allDimms 1 FAILED
Test Details:
Failure: ECC ERROR @ Address:0x01a000e700:CPU1, DIMM - 2
CPU 1 DIMM 2 (ID=cpu1.mem2.vpd)
Correctable, Syndrome 0x18, Multiple Errors Occurred
CPU1 Function 3 ECC Registers:
00 MCA NB STAT LOW: 85080a13 MCA NB STAT HIGH: 85080a13
Memory Configuration: Total: 7680Mb
CPU0-2560Mb CPU1-5120Mb
CPU0: Width[128] Addr 0 - 9fffffff
DIMM 0 0256Mb Addr 0080000000 - 009fffffff Even Quad Word
DIMM 1 256Mb Addr 0080000000 - 009fffffff Odd Quad Word
DIMM 2 1024Mb Addr 0000000000 - 007fffffff Even Quad Word
DIMM 3 1024Mb Addr 0000000000 - 007fffffff Odd Quad Word
CPU1: Width[128] Addr a0000000 - 1dfffffff
DIMM 0 2048Mb Addr 00a0000000 - 019fffffff Even Quad Word
DIMM 1 2048Mb Addr 00a0000000 - 019fffffff Odd Quad Word
*DIMM 2 512Mb Addr 01a0000000 - 01dfffffff Even Quad Word
DIMM 3 512Mb Addr 01a0000000 - 01dfffffff Odd Quad Word
BIOS 設定障害
march.allDimms 1 FAILED
Test Details:
Failure: Need to disable interleaving in BIOS setup before
running memory tests.
Data Comparison Failure
march.allDimms 1 FAILED
Test Details:
Failure: Data Miscompare @ Addr 0x1a0000008, CPU 1 DIMM 3
付録 A 診断テストの結果 63
Page 78
Expected : [5555555555555555]
Observed : [5555555555505555]
Difference : [50000]
Memory Configuration: Total: 7168Mb
CPU0-2560Mb CPU1-4608Mb
CPU0: Width[128] Addr 0 - 9fffffff
DIMM 0 256Mb Addr 0080000000 - 009fffffff Even Quad Word
DIMM 1 256Mb Addr 0080000000 - 009fffffff Odd Quad Word
DIMM 2 1024Mb Addr 0000000000 - 007fffffff Even Quad Word
DIMM 3 1024Mb Addr 0000000000 - 007fffffff Odd Quad Word
CPU1: Width[128] Addr a0000000 - 1bfffffff
DIMM 0 2048Mb Addr 00a0000000 - 019fffffff Even Quad Word
DIMM 1 2048Mb Addr 00a0000000 - 019fffffff Odd Quad Word
DIMM 2 256Mb Addr 01a0000000 - 01bfffffff Even Quad Word
*DIMM 3 256Mb Addr 01a0000000 - 01bfffffff Odd Quad Word
randaddr.allDimms 2 Passed
Test Details:
Memory Configuration: Total: 7168Mb
CPU0-2560Mb CPU1-4608Mb
CPU0: Width[128] Addr 0 - 9fffffff
DIMM 0 256Mb Addr 0080000000 - 009fffffff Even Quad Word
DIMM 1 256Mb Addr 0080000000 - 009fffffff Odd Quad Word
DIMM 2 1024Mb Addr 0000000000 - 007fffffff Even Quad Word
DIMM 3 1024Mb Addr 0000000000 - 007fffffff Odd Quad Word
CPU1: Width[128] Addr a0000000 - 1bfffffff
DIMM 0 2048Mb Addr 00a0000000 - 019fffffff Even Quad Word
DIMM 1 2048Mb Addr 00a0000000 - 019fffffff Odd Quad Word
DIMM 2 256Mb Addr 01a0000000 - 01bfffffff Even Quad Word
DIMM 3 256Mb Addr 01a0000000 - 01bfffffff Odd Quad Word
retention.allDimms 3 FAILED
Test Details:
Failure: Data Miscompare @ Addr 0x1a0000008, CPU 1 DIMM 3
Expected : [5555555555555555]
64 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 79
Observed : [5555555555505555]
Difference : [50000]
Memory Configuration: Total: 7168Mb
CPU0-2560Mb CPU1-4608Mb
CPU0: Width[128] Addr 0 - 9fffffff
DIMM 0 256Mb Addr 0080000000 - 009fffffff Even Quad Word
DIMM 1 256Mb Addr 0080000000 - 009fffffff Odd Quad Word
DIMM 2 1024Mb Addr 0000000000 - 007fffffff Even Quad Word
DIMM 3 1024Mb Addr 0000000000 - 007fffffff Odd Quad Word
CPU1: Width[128] Addr a0000000 - 1bfffffff
DIMM 0 2048Mb Addr 00a0000000 - 019fffffff Even Quad Word
DIMM 1 2048Mb Addr 00a0000000 - 019fffffff Odd Quad Word
DIMM 2 256Mb Addr 01a0000000 - 01bfffffff Even Quad Word
*DIMM 3 256Mb Addr 01a0000000 - 01bfffffff Odd Quad Word
NIC
NIC phyLoop テストでは、PHY でループバックテストが実行されます。ループバッ
クテストを実行するために、NIC デバイスドライバで PHY ループバックモードを設
定し、増分バイトパターン [0x00,0x01,0x02…0xff] を指定して 1500 バイトのデータ
バッファーを初期化して、データを NIC に書き込みます。次に、固定 0xe5 パターン
で二次バッファーを初期化し、NIC から 1500 バイト読み取ります。書き込んだデー
タと読み取ったデータを比較します。最後に、ループバックモードをオフにします。
テスト結果
NIC 、合格
phyLoop.Nic.0 PF1 Passed
Test Details:
Component(s): Motherboard (ID=planar.vpd)
phyLoop.Nic.1 PF2 Passed
Test Details:
Component(s): Motherboard (ID=planar.vpd)
付録 A 診断テストの結果 65
Page 80
サービス障害
Unable to load the driver bcm5700.
phyLoop.Nic.0 PF1 FAILED
Failure Details:
Failure: Unable to load service.
Component(s): Motherboard (ID=planar.vpd)
リンク停止障害
The link status of the device is down.
phyLoop.Nic.0 PF1 FAILED
Failure Details:
Failure: Link is down.
Component(s): Motherboard (ID=planar.vpd)
リンク設定不一致の障害
The link status of the device is mismatched.
phyLoop.Nic.0 PF1 FAILED
Failure Details:
Failure: Link setting mismatch.
Component(s): Motherboard (ID=planar.vpd)
リンクステータスが不明である障害
The link status of the device is unknown.
phyLoop.Nic.0 PF1 FAILED
Failure Details:
Failure: Link status unknown.
Component(s): Motherboard (ID=planar.vpd)
ループバック障害
The loopback is off.
phyLoop.Nic.0 PF1 FAILED
Failure Details:
Failure: Loopback is off.
66 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 81
Component(s): Motherboard (ID=planar.vpd)
書き込み障害
Unable to write to loopback device.
phyLoop.Nic.0 PF1 FAILED
Failure Details:
Failure: Write error.Tried to write <X> bytes, only wrote
<Y>.
Component(s): Motherboard (ID=planar.vpd)
読み取り障害
Unable to read the loopback device.
phyLoop.Nic.0 PF1 FAILED
Failure Details:
Failure: Read error.Tried to read <X> bytes, only read <Y>.
Component(s): Motherboard (ID=planar.vpd)
比較障害
デバイスから読み取られたデータが、書き込まれたデータと異なります。障害のオフ
セットは、データバッファーの先頭からのオフセットであり、16 進数で表されま
す。期待値と実際の値は、不一致であった最初の 16 進バイトです。
phyLoop.Nic.1 PF2 FAILED
Failure Details:
Failure: Compare error.At offset 343 expected 43, got bc.
Component(s): Motherboard (ID=planar.vpd)
付録 A 診断テストの結果 67
Page 82
ストレージ
ストレージテストでは、SCSI デバイスに対してセルフテストコマンドが実行されま
す。セルフテストコマンドには、長い書式と短い書式の両方があります。テストの実
行時間は、デバイス自身の機能です。
SCSI デバイスが存在する場合、短い書式か長い書式のいずれかの Send
Diagnostic コマンドを含む SCSI サブシステム制御ブロックが SCSI ドライバに渡
されて実行されます。
テスト結果
ストレージ、合格
long.SCSI_0 PF1 Passed
Test Details:
Device: SEAGATE ST336607LC
Version: 0004
Serial number: 3JA0KJF6000073248EGM
Device type: disk
Component(s): Hard disk drive 0 (ID=NA)
デバイスでセルフテストコマンドが認識されない障害
The device does not recognize the self-test command.
short.SCSI_1 PF2 FAILED
Failure Details:
Failure: Error starting DST background short test: Illegal
Request
Component(s): Hard disk drive 1 (ID=NA)
デバイスでセルフテストコマンドを処理できない障害
The device is unable to accept and process self-test commands.The
output includes the SCSI sense key.
short.SCSI_1 PF2 FAILED
Failure Details:
Failure: SCSI command failed: Sense Key[3]: Not Ready
Component(s): Hard disk drive 1 (ID=NA)
68 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 83
The following is the list of sense keys.
No Sense
Recovery Data
Not Ready
Medium Error
Hardware Error
Illegal Request
Unit Attention
Data Protect
Blank Check
Vendor Specific
Copy Aborted
Volume Overflow
Miscompare
Reserved
セルフテスト障害
セルフテストコマンドが失敗します。「Address of first failure 」は、ベンダーのテス
トが失敗したセグメントを示しています。
short.SCSI_1 PF2 FAILED
Failure Details:
Failure: Test failed (Failing segment) Address of first
failure{0x0).
Component(s): Hard disk drive 1 (ID=NA)
セルフテストが破壊されている障害
セルフテストコマンドによってガベージが返されます。
short.SCSI_1 PF2 FAILED
Failure Details:
Failure: Invalid Self-Test Results Page Returned by System.
Component(s): Hard disk drive 1 (ID=NA)
付録 A 診断テストの結果 69
Page 84
フラッシュメモリー
フラッシュメモリー診断では、SP フラッシュメモリーへの書き込みが可能かどうか
が確認されます。診断が繰り返されるたびに、初期の消去済み状態 (1) から 0 に 2
ビット (チップごとに 1) 反転されます。最終的には、フラッシュの診断領域内の
「1 」になっているすべてのビットが使用され、テスト時にフラッシュの診断セク
ターが消去されてから 2 ビットが書き込まれます。
テスト結果
考えられる障害の多くは、MTD ドライバを使用してフラッシュ部分にアクセスする
ことが困難であることに関連しています。このような障害が発生する可能性は低く、
ソフトウェアの問題を指している場合がほとんどです。これらの障害が持続する場合
は、問題解決の最初の試みとしてサービスプロセッサのフラッシュ全体を消去および
再プログラミングします。サービスプロセッサを更新する方法の詳細は、『サーバー
管理マニュアル』を参照してください。
フラッシュメモリー、合格
write.flash 2 Passed
Test Details:
Component(s): Motherboard (ID=planar.vpd)
システムのオープン障害
読み取りまたは書き込みアクセスを行うためのフラッシュセクターをオープンできま
せん。
write.flash 1 FAILED
Failure Details:
Failure: Unable to open flash driver: <errno string>
Component(s): Motherboard (ID=planar.vpd)
システムの読み取り障害
フラッシュセクターを読み取ることができません。
write.flash 1 FAILED
Failure Details:
Failure: Unable to read flash memory: <errno string>
Component(s): Motherboard (ID=planar.vpd)
70 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 85
デバイスのアクセス障害
フラッシュセクターのサイズを確認できません。
write.flash 1 FAILED
Failure Details:
Failure: Can't determine erase size of device: <errno
string>
Component(s): Motherboard (ID=planar.vpd)
システムの書き込み障害
フラッシュセクターに書き込むことができません。
write.flash 1 FAILED
Failure Details:
Failure: Unable to write flash memory: <errno string>
Component(s): Motherboard (ID=planar.vpd)
消去障害
フラッシュセクターを消去できません。このエラーは、不良部品またはその他のハー
ドウェアエラーを示している場合があります。
write.flash 1 FAILED
Failure Details:
Failure: Erase operation failure: <errno string>
Component(s): Motherboard (ID=planar.vpd)
マジックナンバー障害
フラッシュの予約済みパーティションに対するオフセット 0x0 のマジックナンバーが
正しくありません。期待される値は、0x44494147 または 0xffffffff ( 消去済み) です。
これは、いくつかのプロセスが誤って診断領域に書き込みを行なったことを示してい
る場合があります。サービスプロセッサを再度フラッシュし、テストを再度実行して
ください。サービスプロセッサの更新方法については、『サーバー管理マニュアル』
を参照してください。
write.flash 1 FAILED
Failure Details:
Failure: Magic number of diagnostics area incorrect,
Expected [0x44494147], Actual [0xNNNNNNNN].
付録 A 診断テストの結果 71
Page 86
Component(s): Motherboard (ID=planar.vpd)
データの比較障害
フラッシュセクターから読み取られたデータが、書き込まれたデータと異なります。
ハードウェアに障害が発生している可能性があります。サービスプロセッサを再度フ
ラッシュし、テストを再度実行してください。サービスプロセッサの更新方法につい
ては、『サーバー管理マニュアル』を参照してください。
write.flash 1 FAILED
Failure Details:
Failure: Data Miscompare: Expected [0xNNNNNNNN], Actual
[0xNNNNNNNN].
Component(s): Motherboard (ID=planar.vpd)
LED
この一連のテストでは、LED ドライバの機能を確認します。このテストでは、I2C に
接続されている LED ドライバチップの目的のビットを読み取り、そのビットの値を
反転して、値をチップに書き込みます。次に、その新しい値を読み取り、この値が確
かに切り替えられていることを確認し、初期値を書き込んだあと、その値が正しいか
どうかを再度確認します。この動作によって LED は変化しません。
テスト結果
次の例は、4300 サーバーの例です。2100 サーバーでは LED コンポーネントの数が少
なく種類も異なりますが、テスト出力は同様です。この例では、レポートの内容を一
部省略しています。
LED、合格
toggleLED.allLeds 3 Passed
Test Details:
cd Passed
Sensor: CDROM Light path location LED (ID=cd.lp)
Component(s): CD ROM drive (ID=NA)
cpu0 Passed
Sensor: CPU 0 Light path location LED (ID=cpu0.lp)
Component(s): CPU 0 (ID=cpu0.vpd)
72 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 87
cpu0.mem0 Passed
Sensor: CPU 0 Dimm 0 Light path location LED (ID=
cpu0.mem0.lp)
Component(s): CPU 0 DIMM 0 (ID=cpu0.mem0.vpd)
cpu0.mem1 Passed
Sensor: CPU 0 Dimm 1 Light path location LED (ID=
cpu0.mem1.lp)
Component(s): CPU 0 DIMM 1 (ID=cpu0.mem1.vpd)
cpu0.mem2 Passed
Sensor: CPU 0 Dimm 2 Light path location LED (ID=
cpu0.mem2.lp)
Component(s): CPU 0 DIMM 2 (ID=cpu0.mem2.vpd)
cpu0.mem3 Passed
Sensor: CPU 0 Dimm 3 Light path location LED (ID=
cpu0.mem3.lp)
Component(s): CPU 0 DIMM 3 (ID=cpu0.mem3.vpd)
cpu0.memvrm Passed
Sensor: CPU 0 Memory VRM Light path location LED
(ID=cpu0.memvrm.lp)
Component(s): CPU 0 memory VRM (ID=cpu0.memvrm.vpd)
cpu0.vrm Passed
Sensor: CPU 0 VRM Light path location LED (ID=
cpu0.vrm.lp)
Component(s): CPU 0 VRM (ID=cpu0.vrm.vpd)
cpuplanar Passed
Sensor: Daughtercard Light path location LED (ID=
cpuplanar.lp)
Component(s): CPU Daughter Card (ID=cpuplanar.vpd)
fault Passed
Sensor: System Fault Indication (ID=faultswitch)
Component(s): Fault light (ID=NA)
floppy Passed
Sensor: Floppy Light path location LED (ID=floppy.lp)
Component(s): Floppy disk drive (ID=NA)
oppanel Passed
Sensor: LCD Light path location LED (ID=frontpanel.lp)
Component(s): Front panel (ID=pic.vpd)
identify Passed
付録 A 診断テストの結果 73
Page 88
Sensor: Identify switch (ID=identifyswitch)
Component(s): Identify light (ID=NA)
front-fans Passed
Sensor: Fan Board Light path location LED (ID=pcifan.lp)
Component(s): Front Fan backplane (ID=NA)
planar Passed
Sensor: Motherboard Light path location LED (ID=
planar.lp)
Component(s): Motherboard (ID=planar.vpd)
disk-backplane Passed
Sensor: SCSI Backplane Light path location LED (ID=
scsibp.lp)
Component(s): SCSI backplane (ID=scsibp.vpd)
デバイスが存在していないことを示す警告
toggleLED.allLeds 3 Warning
Test Details:
cd Not Present
Sensor: CDROM Light path location LED (ID=cd.lp)
Component(s): CD ROM drive (ID=NA)
読み取り障害
Unable to read the device.
toggleLED.allLeds 3 FAILED
Test Details:
planar FAILED
Failure: Unable to read LED.<errno string>
Sensor: Motherboard Light path location LED (ID=
planar.lp)
Component(s): Motherboard (ID=planar.vpd)
書き込み障害
Unable to write to the device.
toggleLED.allLeds 3 FAILED
Test Details:
74 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 89
planar FAILED
Failure: Unable to write to LED.<errno string>
Sensor: Motherboard Light path location LED (ID=
planar.lp)
Component(s): Motherboard (ID=planar.vpd)
温度
各温度センサーは初期化され、デバイスから現在の温度が読み取られます。この温度
は、危険しきい値および警告しきい値と比較されます。しきい値を超えている場合
は、障害が示されます。
SP コマンド sensor get を使用して、特定の温度に対する現在のしきい値設定を表
示します。
localhost # sensor get -i cpu0.temp -cwWC
Identifier Crit Low Warn Low Warn High Crit High
cpu0.memtemp NA NA 68.00 70.00
テスト結果
温度が許容範囲内である場合は、計測値が摂氏温度で表示されます。
温度、合格
read.cpu0.memtemp 1 Passed
Test Details:
Temperature: 67.3
Sensor: CPU 0 Memory temperature (ID=cpu0.memtemp)
Component(s): Motherboard (ID=planar.vpd)
計測値が警告しきい値を超えている、合格
温度の計測値が警告しきい値を超えているか、またはしきい値を下回っています。
read.ambient.temp 2 Passed
Test Details:
Temperature: 26.8
Warning: Temperature exceeds the warning threshold of
22.0, but is still safe.
付録 A 診断テストの結果 75
Page 90
Sensor: Ambient air temp (ID=ambienttemp)
Component(s): Box (enclosure) (ID=NA)
デバイスが存在していないことを示す警告
デバイスが存在していません。
Read.cpu0.memtemp 1 Warning
Failure Details:
Failure: Device not present.
Sensor: CPU 0 Memory temperature (ID=cpu0.memtemp)
Component(s): Motherboard (ID=planar.vpd)
読み取り障害
デバイスを読み取ることができません。
read.cpu0.memtemp 1 FAILED
Failure Details:
Failure: Unable to read device temperature.
Sensor: CPU 0 Memory temperature (ID=cpu0.memtemp)
Component(s): Motherboard (ID=planar.vpd)
計測値が危険しきい値を超えている障害
温度の計測値が危険しきい値を超えているか、またはしきい値を下回っています。
read.cpu0.temp 2 FAILED
Test Details:
Failure: Sensor is below critical threshold: 29.2 < 30.0
Sensor: CPU 0 temperature (ID=cpu0.dietemp)
Component(s): CPU 0 (ID=cpu0.vpd)
read.cpu1.temp 23 FAILED
Test Details:
Failure: Sensor exceeds critical threshold: 30.0 > 29.2
Sensor: CPU 0 temperature (ID=cpu1.dietemp)
Component(s): CPU 0 (ID=cpu1.vpd)
76 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 91
操作パネル
操作パネルテストモジュールでは、表示バッファーの現在の内容が読み取られ、保存
されます。次に、表示バッファーに対して、5 つの異なるデータパターン (0xFF
0xAA 0x55 0x66 0x99) の書き込み、読み取り、または比較が実行されます。テストが
完了したあと、最初に表示されていた内容が復元されます。
テスト結果
OpPanel 、合格
write.opPanel 1 Passed
Test Details:
Sensor: Operator Panel virtual device (ID=oppanel)
Component(s): Front panel
読み取り障害
表示バッファーを読み取ることができません。
write.opPanel 2 FAILED
Failure Details:
Failure: Unable to read OpPanel.<errno string>
Sensor: Operator Panel virtual device (ID=oppanel)
Component(s): Front panel
書き込み障害
表示バッファーに書き込むことができません。
write.opPanel 2 FAILED
Failure Details:
Failure: Unable to write to OpPanel.<errno string>
Sensor: Operator Panel virtual device (ID=oppanel)
Component(s): Front panel
データの比較障害
表示バッファーのデータが、書き込まれたデータと異なります。
付録 A 診断テストの結果 77
Page 92
write.opPanel 2 FAILED
Failure Details:
Failure: Compare failed at line 2, char 12.Expected AA
and got 23.
Sensor: Operator Panel virtual device (ID=oppanel)
Component(s): Front panel
電源装置
電源テストモジュールは、2 台の電源装置を持つ Sun Fire V40z サーバーでのみ使用
できます。
電源装置テストでは、各電源装置の存在を確認し、電源バックプレーンの状態レジス
タが読み取られます。電源装置が存在する場合は、PRS の有効な電源正常状態ビット
が読み取られます。電源装置の VPD が読み取られ、検査合計が確認されます。電源
装置ごとに、次の基準に基づいて合格状態が判定されます。
■ 電源装置が存在している。
■ 有効ビットが PRS で設定されている。
■ 電源正常状態が True である。
■ VPD が読み取り可能であり、検査合計エラーが致命的ではない。
電源装置が存在しない場合に、警告状態が欠如していたり、電源正常状態が存在する
と、エラーとみなされます。電源装置が見つからない場合は、障害ではなく警告とな
ります。電源装置ごとの電源装置状態は、「Passed 」、「FAILED」、または
「Wa rn in g 」のいずれかです。電源装置マザーボード上の NPUI ( ネット電源使用イ
ンジケータ) が読み取られ、各電源装置の現在の電力消費量が判定されます。各電源
装置では、出力信号が生成されます。この信号の電圧は、電源装置の電力消費量に比
例します。この電圧は、電源装置マザーボード上の PCF8591 デュアル ADC への入
力となります。変換された値はここから読み取られ、電力消費量の計算に使用されま
す。
テスト結果
電源、合格
read.allPowerSupplies 9 Passed
Test Details:
Power Supply 1 Status: Passed
Presence Detect: Present
78 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 93
Enabled: True
Power Good: True
Part Number: S00440
ECN: A01
Serial Number: PM16768
Manufacturer: CHEROKEE
Date of Manufacture: 12-24-03
Component(s): Power supply 1 (ID=ps1.vpd)
Power Supply 2 Status: Not Present
電源正常信号の障害
read.allPowerSupplies 9 FAILED
Failure Details:
Power Supply 1 Status: Power good indicator is false.
Presence Detect: Present
Enabled: True
Power Good: False
Part Number: S00440
ECN: A01
Serial Number: PM16768
Manufacturer: CHEROKEE
Date of Manufacture: 12-24-03
Component(s): Power supply 1 (ID=ps1.vpd)
Power Supply 2 Status: Passed
Presence Detect: Present
Enabled: True
Power Good: True
Part Number: S00440
ECN: A01
Serial Number: PM16769
Manufacturer: CHEROKEE
Date of Manufacture: 12-24-03
Component(s): Power supply 2 (ID=ps2.vpd)
付録 A 診断テストの結果 79
Page 94
読み取り障害
read.allPowerSupplies 9 FAILED
Failure Details:
Failure: Unable to read device.(Power supply 2)
80 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 95
付録 B
システムイベント
イベントの詳細
この付録では、システムイベントの詳細および障害追跡についての推奨事項を表で示
します。表は、コンポーネントおよびサブタイプ別に構成されています。
注 – システムイベントを参照するには、sp get events コマンドを使用するか、
SM コンソールで「 System Events」テーブルを表示します。通常、 IPMI イベントで
は、システム内のセンサーに関する情報が提供されます。詳細は、『Sun Fire V20z
および Sun Fire V40z サーバー— サーバー管理マニュアル』を参照してください。
表 B-1 <comp id>、電圧、温度、またはファン: センサー
フィールド 説明
コンポーネント <comp id> 、電圧、温度、またはファン
サブタイプ センサー: 電圧、温度、またはファン
重要度 重大、警告、または情報
概要 センサーしきい値を超えました。
81
Page 96
表 B-1 <comp id>、電圧、温度、またはファン: センサー (続き)
フィールド 説明
メッセージ
詳細な説明 システム管理ソフトウェアは、電圧、温度、ファンの回転速度な
手順 センサーのしきい値は変更しないでください。しきい値を変更した
Sensor <sensor> reports <value> <type> [ [but should be [between
A and B] | [greater than B] | [less than A] ] | [and has returned to
normal]
ど、さまざまなセンサーを監視します。センサーには、通常、警
告、および重大の範囲を定義するしきい値があります。センサーの
計測値がこの範囲しきい値を超えると、システムイベントが生成さ
れ、持続されます。
場合は、デフォルト設定に再設定してください。
温度センサーの場合は、サイトの空調設備が適切に動作しているか
どうか、およびシステムへの通気が適切かどうかを確認します。シ
ステムコンポーネントにほこりが溜まらないようにしてください (特
にファン、ヒートシンク、および通気口)。CPU ヒートシンクが適切
に取り付けられていることを確認します (ねじが仕様どおりに締めら
れているか、レバーが定位置で固定されているか)。CPU とヒートシ
ンクの間に十分な熱伝導グリースがあることを確認します。
ファンセンサーの場合は、ファンにほこりが溜まらないようにして
ください。異物がファンの羽根の妨げになっていないことを確認し
ます。ファンが動作していることを確認し、動作していない場合は
交換してください。正常であるとわかっているファンと交換して、
問題が解消されるかどうかを確認します。
電圧の問題の場合は、A/C 電圧が適切かどうかを確認します。最
近、A/C 変動が発生したかどうかを確認します (瞬時電圧低下、
サージ、電圧低下)。VRM モジュールが適切に取り付けられている
ことを確認します。電圧がプラグ対応 VRM モジュールから発生し
ている場合は、このモジュールを正常であるとわかっているモ
ジュールと交換して、問題が引き続き発生するかどうかを確認しま
す。
問題が自然に解消されるか、ホットプラグ対応コンポーネント (ファ
ンまたは電源装置) をホットスワップすると、通常の状態に戻すこと
ができます。SP を再起動すると、問題が再度発生する場合を除き、
エラー状態が情報に再設定されます。
表 B-2 CPU プレーナ、構成
フィールド 説明
コンポーネント CPU プレーナ
サブタイプ 構成
重要度 警告
概要 互換性のないプレーナおよび CPU プレーナが検出されました。
82 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Page 97
表 B-2 CPU プレーナ、構成 (続き )
フィールド 説明
メッセージ
詳細な説明 2 つのバージョンの CPU カードがあり、これらは互いに物理的およ
手順 適切なバージョンの CPU カードに交換します。
CPU Planar card is a different revision from main Planar card. This
configuration may not operate properly and is unsupported.
び電気的に互換性があります。システムでは、Ver s io n 1 のプレーナ
には Vers i o n 1 のカード、Vers i o n 2 のプレーナには Ve r s ion 2 のカー
ドの接続のみがサポートされています。この警告は、バージョンが
一致していないことを示しています。システムは動作しますが、一
部の機能が適切に動作しない可能性があります (Version E の CPU、
DDR 400 メモリー)。
表 B-3 CPU <X> 、構成
フィールド 説明
コンポーネント
サブタイプ 構成
重要度 警告
概要 システムに不明な CPU モデルが取り付けられています。
メッセージ
CPU <X>
CPU Family <x>, Model <y>, Stepping <z> is unknown, Thermal
offset may lead to erroneous shutdowns.
詳細な説明 システムに取り付けられている特定のバージョンの CPU が、SP で
サポートされていません。
手順 取り付けられた CPU がこのシステムに対して適切なタイプであり、
技術サンプルではないことを確認します。SP ソフトウェア (および
必要に応じて、BIOS ソフトウェア) を最新バージョンに更新して、
再試行してください。問題が引き続き発生する場合は、ご購入先ま
でお問い合わせください。
表 B-4 CPU <X> 、ハートビート
フィールド 説明
コンポーネント
サブタイプ
重要度 重大、情報
CPU <X>
ハートビート
付録 B システムイベント 83
Page 98
表 B-4 CPU <X> 、ハートビート (続き)
フィールド 説明
概要 ハートビートが停止したか、再開しました。プラットフォーム OS の
実行が停止したか、プラットフォーム POCI ドライバが停止しまし
た。
メッセージ
詳細な説明 プラットフォーム側のドライバが停止したか、ハートビート信号の
手順 通常、この問題は、SP がこのイベントを検出できないために、プ
CPU<x> [has not sent a heartbeat in the last minute] | [has resumed
sending heartbeats] | [Platform no longer running OS]
SP への送信を再開しました。または、ハートビートが消失している
間にプラットフォーム OS が停止されました。通常の操作時に、プ
ラットフォームは、インストールされている適切なプラットフォー
ムドライバを使用して、定期的なハートビート信号を SP に送信し、
動作していることを示します。ハートビート信号の消失時間が 1 分
を超えると、SP は警告メッセージを発行します。ハートビート信号
が再開されるか、システムを再起動すると、対応するメッセージが
送信されます。
ラットフォーム側で開始されるプラットフォーム OS の停止によって
発生します。プラットフォーム OS の停止によって、SP にこのイベ
ントが通知される前にプラットフォームドライバが停止することが
あります。また、この問題は、プラットフォームドライバの再イン
ストールまたはアップグレードが原因で発生することもあります。
さらに、この問題は、プラットフォーム OS のクラッシュまたはハン
グアップが原因で発生することもあります。この場合は、システム
を再起動して解決します。
表 B-5 CPU <X> 、マシンチェック
フィールド 説明
コンポーネント
サブタイプ マシンチェック
重要度 重大、警告、情報
概要 互換性のないプレーナおよび CPU プレーナが検出されました。
メッセージ
84 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
CPU <X>
A platform CPU has issued a machine check.
Page 99
表 B-5 CPU <X> 、マシンチェック (続き )
フィールド 説明
詳細な説明
手順 詳細は、32 ページの「マシンチェックエラー」を参照してくださ
Machine Check error detected on cpu <CPU>. [Machine Check in
Progress.] [Error IP Valid.] [Restart IP Valid.] Error detected in [Data
Cache] | [InstructionCache] | [Bus Unit] | [Load/Store unit] |
[North Bridge] | [Invalid bank reached]. [Second error detected.]
[Error not corrected] [Error reporting disabled.] [Misc. register
contains more info.] [Error occurred at address <address>.]
[Processor state may have been corrupted] [Correctable ECC error.]
[Un-correctable ECC error.] [Detected on a scrub.] Raw data: <data>
い。
表 B-6 CPU <X> 、温度センサー
フィールド 説明
コンポーネント
サブタイプ 温度センサー
重要度 重大
概要 CPU サーマルトリップが発生しました。
メッセージ
詳細な説明 CPU がサーマルトリップイベントを示しています。その結果、シス
手順 このイベントは、CPU の温度が約 120 ℃に達すると発生します。こ
CPU <X>
CPU thermal trip has occurred.
テムが停止しました。
のイベントは、プロセッサの損傷の回避に役立つフェイスセーフ処
理です。このイベントが発生した場合は、システムの A/C 電源を入
れ直すしかありません。50 ページの「サーマルトリップイベント」
を参照してください。
表 B-7 CPU <X>DIMM<X> 、マシンチェック
フィールド 説明
コンポーネント
サブタイプ マシンチェック
重要度 重大、警告、情報
概要 DIMM エラーが発生しました。
CPU<X>DIMM<X>
付録 B システムイベント 85
Page 100
表 B-7 CPU <X>DIMM<X> 、マシンチェック (続き )
フィールド 説明
メッセージ
詳細な説明 回復可能なエラーの場合、DIMM モジュールには修正可能率の高い
手順 いずれの場合も、DIMM を正常であるとわかっている DIMM と交換
[A [fatal | recoverable] machine check error occurred on cpu <cpu>:
dimm <dimm>] | [Correctable error rate exceeded, consider
replacing the dimm.]
エラーが発生しています。このエラーはシステムのパフォーマンス
および信頼性に影響を与えます。致命的エラーの場合、DIMM モ
ジュールには修正不可能なエラーが発生しています。データが損失
しています。
して、問題が引き続き発生するかどうかを確認します。問題が引き
続き発生する場合は、DIMM コネクタ領域に異物 (ほこり、金属の
削りくずなど) がないかどうかを確認し、圧縮空気を使用してコネク
タ領域を掃除して、すべての異物を取り除きます。同じメモリーコ
ントローラに接続されているその他の DIMM を取り外し、その
DIMM および接続領域を確認します。DIMM エッジコネクタにほこ
りなどが付着しておらず、腐食していないことを確認します。シス
テムでは認定されたメモリーのみを使用してください。コネクタ領
域を掃除したあとで、DIMM を交換してください。
表 B-8 プレーナ、Crowbar
フィールド 説明
コンポーネント プレーナ
サブタイプ
重要度 重大、情報
概要 Crowbar で VRM モジュールの電源装置に致命的エラーが発生しま
メッセージ
詳細な説明 VRM モジュールのいずれかが過熱状態、過電流状態、または適切な
手順 詳細は、50 ページの「サーマルトリップイベント」を参照してくだ
86 Sun Fire V20z および Sun Fire V40z サーバー — 障害追跡手法および診断マニュアル • 2005 年 7 月
Crowbar
した。
Sensor <sensor> reports that [crowbar failure has been detected attempting to power system off] | [crowbar failure has been
cleared].
電圧に調整できないことを示しているか、あるいはその状態が解消
されています。障害が検出される場合は、通常、過熱エラーが発生
しています。
さい。