台風が去ってもどんより曇り雨だったけど、今日はスカっと晴れ!
某社のサービスの大規模障害、中の人たち大変かと思いますが、がんばってほしいです。
サービスは違うのに障害連鎖。これは、どういうことだろうか?共有ストレージ?それとも何かしらのリモート実行?エージェント宛にコマンド発行?とうか、どんな設計だとこんなに連鎖した障害になるのだろうか?
情報を見る限りは、ソフトウェアのバグによるデータ損失の様ですが、後でいいので実際の所の詳細を公開して欲しいです。
バックアップ
バックアップ設計、ほんと重要ですね。
”バックアップ” というと単純ですが、サービス運用の中でも、非常にコストがかかる部分でもあります。もしかしたら一番かかる部分かもしれません。
サーバなどのシステムを構築する際も、いま思うと一番時間をかけているかもしれません。サービスが稼働してからも、毎日の様にメールで動作をチェックしたり定期的に面倒をみて保守していく必要があります。
オペミス、バグ・ソフト障害、災害、ハード障害、ネットワーク障害、電源障害、いろいろなシーンでバックアップが必要とされますが、このようなあらゆる障害に対応して、完全なデータを保ち短時間で復旧ができるようにしなければならないです。
これを機に、災害対策と合わせてもう一度見直しです。