2017年7月16日日曜日

Brocade製 SAN Switch リンクダウン発生時の問題判別手法

システムが運行時、特定のポートでlink downイベントが発生し、監視システムなどで問題を検知することは多々発生する。多くの場合は、何が発生しているのか、正確・迅速に理解することは簡単ではない。

  • 「何が発生しているのか」を理解するためには、まず以下の点が重要。
・どこのポートで発生しているのか。
 -何番ポートか、単一ポートか複数ポートか。

・一過性の事象か。
 -ポートはリンクアップしているか。
 -リンクダウンしたままか。

・事象が発生した際、計画作業がおこなわれていないか。
 -定期リブートやアダプターのリセットが発生する作業をしていないか。 

・ポートの接続先のノードは何か。ストレージなのか、サーバーなのか。
 -構成図はあるのか、OS側、ストレージ側でも何か検知していないか。
 -オンサイトであればケーブルタグも有益な情報

SANスイッチ側の調査を続けているうちに作業起因によるメッセージであった…ということはありえる話。(技術の問題というよりかは組織の問題であるが。)
大抵の場合は、監視担当者は「何もしていません。」あるいは「知りません。」と発言するので注意する必要がある。

また、昨今はOSの仮想化が進み、リブートが行われていてもリンクアップダウンになりえないケースもあるため、多角的に事象を理解する必要がある。

作業起因を疑いつつ、製品起因の可能性を探っていくのが、適切なアプローチ。

■コマンド出力からの確認手法 

#errdump -a
 古いイベントから出力。スイッチがエラーと判断したイベントは出力するが、サーバーリブートなどに伴うリンクダウンイベントは出力されない。(スイッチからするとただ切れたためエラーとして認識しない。)

#errdump -r
 新しいeventから出力する。ssh接続などではなく、シリアル接続時の出力が遅い時に便利

#switchshow
スイッチのポートの状態(接続の有無・役割)、接続速度などを一括で確認することができる。

#fabricshow --log
ポートのLinkup downイベントを確認することができる。 サーバーのリブートやストレージのコントローラーがリブートした際のイベントは、errdumpではなく、こちらに出力される。

#portshow
ポートの統計情報、エラーカウンターを個別のポートごとに確認することができる。

#porterrshow
  ポートのエラーの統計情報を一括で確認することができる 。

#sfpshow
  ポートのSFPの入出力状態(信号の強弱)を確認することができる。
  ポート指定することで、個別のポートの状態を確認できる。

これらのコマンドは、supportsaveあるいはsupportshow の出力に含まれるため、一括でログを取得し、localで確認する方法も有効。

初見の環境であれば構成図を参考に、状況にもよるが30分から1時間で見解を導き出せれば、十分に及第点といえるであろう。
慣れた環境なら、10分~15分で判断をつける必要がある。

0 件のコメント:

コメントを投稿

Brocade製 SAN Switch リンクダウン発生時の問題判別手法

システムが運行時、特定のポートでlink downイベントが発生し、監視システムなどで問題を検知することは多々発生する。多くの場合は、何が発生しているのか、正確・迅速に理解することは簡単ではない。 「何が発生しているのか」を理解するためには、まず以下の点が重要。 ・どこ...