ハードウェア障害

障害対応ってのはある意味医者みたいなもんで、
(まぁ人命とシステムの重さの違いはあるけど)
表層に出ている現象だけを見ていては解決しないこともある。
例えばDBのパフォーマンスが悪いとかの解決策にしても、
→索引張ろう
→DBサーバを増強しよう
→アプリで投げているSQLをチューニングしよう


多分人と立場によって解法は色々変わると思うけど、
実は裏でOS上の問題があって障害原因になってたりすると、
非常に発見されにくい。
で、見付かった=障害発生したときには手遅れに、と。


今回の事例ではまさにそんな感じで、
ハードウェアの軽微な障害が原因で、
最初はアプリの常駐プロセスでエラーが出始めて、
徐々に回数が増えてきて、
先週にOSコマンド実行したレベルでエラーになってたりして、
ようやくOSかハードの問題ということに辿り着いた。
で、ハード交換して一件落着したんだけど、
アプリの方だけ見てても絶対解決しなかったよなぁとか。
うーん、この仕事って難しい。