- 「何が発生しているのか」を理解するためには、まず以下の点が重要。
-何番ポートか、単一ポートか複数ポートか。
・一過性の事象か。
-ポートはリンクアップしているか。
-リンクダウンしたままか。
・事象が発生した際、計画作業がおこなわれていないか。
-定期リブートやアダプターのリセットが発生する作業をしていないか。
・ポートの接続先のノードは何か。ストレージなのか、サーバーなのか。
-構成図はあるのか、OS側、ストレージ側でも何か検知していないか。
-オンサイトであればケーブルタグも有益な情報
SANスイッチ側の調査を続けているうちに作業起因によるメッセージであった…ということはありえる話。(技術の問題というよりかは組織の問題であるが。)
#errdump -a
#errdump -r
#porterrshow
ポートのエラーの統計情報を一括で確認することができる 。
#sfpshow
ポートのSFPの入出力状態(信号の強弱)を確認することができる。
ポート指定することで、個別のポートの状態を確認できる。
これらのコマンドは、supportsaveあるいはsupportshow の出力に含まれるため、一括でログを取得し、localで確認する方法も有効。
SANスイッチ側の調査を続けているうちに作業起因によるメッセージであった…ということはありえる話。(技術の問題というよりかは組織の問題であるが。)
大抵の場合は、監視担当者は「何もしていません。」あるいは「知りません。」と発言するので注意する必要がある。
また、昨今はOSの仮想化が進み、リブートが行われていてもリンクアップダウンになりえないケースもあるため、多角的に事象を理解する必要がある。
作業起因を疑いつつ、製品起因の可能性を探っていくのが、適切なアプローチ。
■コマンド出力からの確認手法
■コマンド出力からの確認手法
#errdump -a
古いイベントから出力。スイッチがエラーと判断したイベントは出力するが、サーバーリブートなどに伴うリンクダウンイベントは出力されない。(スイッチからするとただ切れたためエラーとして認識しない。)
#errdump -r
新しいeventから出力する。ssh接続などではなく、シリアル接続時の出力が遅い時に便利
#switchshow
スイッチのポートの状態(接続の有無・役割)、接続速度などを一括で確認することができる。
#fabricshow --log
ポートのLinkup downイベントを確認することができる。 サーバーのリブートやストレージのコントローラーがリブートした際のイベントは、errdumpではなく、こちらに出力される。
スイッチのポートの状態(接続の有無・役割)、接続速度などを一括で確認することができる。
#fabricshow --log
ポートのLinkup downイベントを確認することができる。 サーバーのリブートやストレージのコントローラーがリブートした際のイベントは、errdumpではなく、こちらに出力される。
#portshow
ポートの統計情報、エラーカウンターを個別のポートごとに確認することができる。
ポートの統計情報、エラーカウンターを個別のポートごとに確認することができる。
#porterrshow
ポートのエラーの統計情報を一括で確認することができる 。
#sfpshow
ポートのSFPの入出力状態(信号の強弱)を確認することができる。
ポート指定することで、個別のポートの状態を確認できる。
これらのコマンドは、supportsaveあるいはsupportshow の出力に含まれるため、一括でログを取得し、localで確認する方法も有効。
初見の環境であれば構成図を参考に、状況にもよるが30分から1時間で見解を導き出せれば、十分に及第点といえるであろう。
慣れた環境なら、10分~15分で判断をつける必要がある。
0 件のコメント:
コメントを投稿