ANAに引き続き、JALでも発生してしまいました。
去る4月1日午前、JALの運用する重量管理システムに障害が生じ、荷物のチェックインが不可能になりました。性能の劣る予備システムに切り替え処理を行ったものの、結果として処理が十分に行えず、50便あまりの飛行機の発着に支障を生じる結果となりました。
その後の調査の結果、原因はルフトハンザシステムズの提供するシステム内で、計算用サーバーとデータベースサーバー二つの処理が同じタイミングで連動して行われたため、お互いの処理に支障が生じたようです。これは前月にシステム会社が行ったプログラム設定に問題があったようで、それが今回の障害を引き起こすことになったようです。
その前のANAの障害も、原因が明らかになりました。4台のデータベースサーバをつなぐ米シスコシステムズ製イーサネットスイッチの故障が原因で、システム全体が停止してしまったようです。ANAのシステムは障害に備えて4台のサーバを並列で運用し、データの同期をかけていました。今回そのうちの一台に障害が発生し、機能を停止してしまったようです。その場合本来は3台で同期を行っているうちに故障している一台の復旧を行えばよいわけですが、本来は故障していない他のサーバだけを同期をとればいいところスイッチの故障のため障害発生している一台のデータを他のサーバと連動してしまったようです。結果として次々と障害がうつってしまい、最終的に4台が停止してしまったようです。となると、イーサネットスイッチが故障しているためこれを交換すれば問題は解決するのですが、肝心のスイッチの故障を知らせる機能が故障しており、正常と判断して復旧をしてしまったことが長時間のシステム停止に繋がってしまいました。
結果的に丸一日ANAのシステムは停止する事態となり、多くの乗客の足に影響が出ました。ANAの発表では、539便が欠航し72、000人の足に支障が発生したようですし、逸失収入は3億6000万円だったようです。またANAのシステムを利用している会社もあるため、合計38便が欠航し、142便以上が30分以上の遅れを来してしまったようです。
このように社会のインフラにかかわるシステムに支障が生じた場合、世の中全般に大きな影響を来してしまいます。こういった故障やバグが無くすことは絶対に求められますが、現実として完全無欠な情報システムを構築することは事実として難しいでしょう。とはいってもこういった障害によって社会に大きな影響が起きることは望ましくありませんし、この状況を放置すれば人命に影響する事象が起きる可能性もあります。
不測の事態は、常に発生します。不測とは予測のつかないことを意味しますが、実は本当に予測のつかない事態はごくまれです。となると、不測を不測として考えてしまうと、思考停止に繋がってしまいます。実際不測と言われる事象の多くは既知の事実です。物理的な機器は必ず構成する部品が壊れますし、ソフトウェアなど論理的なしくみは、必ず不具合を発生させます。コンピュータシステムは、沢山のハードウェアで構成されていますが、その部品の多くは必ず故障します。ソフトウェアには必ずバグが存在し、いつかのタイミングで障害を発生させます。どんなに完全な努力を行ったとしても、複雑性の増す状況においてこれらを予防することは不可能と言っても過言ではないと思われますし、事実そうなのでしょう。つまりこれらの多くは、問題はいつ、どこで発生するかだけであり、決して不測ではないのです。
東日本大震災で起きた津波は、非常に大きな被害をもたらしました。しかし歴史を紐解くと、多くの地域で被害が記録されその被害を繰り返さないための警鐘がいいつたえられていました。この寺の境内より下には建物を建ててはいけない、この鳥居の真ん中のしみは、洪水の際にここまで水が来たという証だという言い伝えは、各地に残っていました。それでも文明と技術の発達とともに、我々は自然をコントロールできると考え、やがて起きない事としてその対策について思考停止してしまいました。その結果、もっと積極的な対策手段が沢山あったにもかかわらずそれが実行されることはなくなりました。
となると不測と不測と思い込み思考停止をするのではなく、不測を未知と既知に切り分けて積極的な対策を講じていくことが大切だということに我々は気づく必要があります。過去に起きたことは、再び必ず起きます。同じ場所や部品でなくても、事象は必ず起きるのです。となると、すべての構成物を完全にするのではなく、障害がどのような影響を引き起こすか、その影響を最小限にする対策を講じていけばよいことになるのです。今回のシステム障害も、各企業で毎日起きていることです。それぞれの機器やソフトウェアに障害が起きることは想定されていますが、どうしてもその中で対策を講じようとしてしまいます。しかし同一環境や同一システムなどで対策を講じても、その同一環境内で発生した問題に対応することは難しいと気づくべきです。
今後仮想化の技術が進んでいくと、ハードウェア面での問題は解決される可能性はあります。しかしソフトウェア的な問題は違った観点でアプローチしなければ、解決は難しいでしょう。今回の障害で言えば、すべてが手作業や代替システムで対応出来ればこれほど大きな影響は生じなかった可能性が高いといえます。となると、影響の極小化は可能なはずです。効率性と利便性の高さを追求することは必要ですが、万が一の場合はそれらに劣っても確実に機能を果たせる仕組みも準備することが我々には求められている気がするのです。
東日本大震災の教訓から、私は灯油のシンプルなストーブを購入しました。電気や電池がなくても灯油さえあれば暖が取れ料理が作れる、シンプルなストーブを購入しました。臭いはくさく暖房効果が低くても、野外で持つ変える仕組みが災害の際には必要と考えたからです。電気と情報で構成されたスマートシティの実現の前に、こういう当たり前の対策をもう一度見直すべき時期に来ているように私には感じられます。