【悲報】世界が止まった日、Cloudflareがやらかした本当の理由ｗｗｗ

toko

7か月前

【悲報】世界が止まった日、Cloudflareがやらかした本当の理由ｗｗｗ

## クラウドフレア大規模障害の深層：正義の行動が招いた世界的な混乱
先日発生したCloudflareの大規模なシステム障害は、世界中のインターネット利用者に大きな影響を与えました。多くのウェブサイトが一時的にアクセス不能となり、その原因に注目が集まっていましたが、ついに同社から詳細な報告が発表されました。サイバー攻撃の可能性も囁かれる中、事態は予期せぬ方向へと進んでいました。

### 発端は「正義の行動」：未知の脆弱性への対応
今回の障害の原因は、サイバー攻撃によるものではありませんでした。CloudflareのCTO、ジョン・グレアム＝カミング氏の報告によると、同社は業界全体を揺るがす危険な脆弱性を検知し、これに対処しようとした際に設定ミスを犯したことが明らかになりました。この脆弱性とは「React Server Components」に見つかったもので、「React Nichele」とも呼ばれ、悪用されればサーバーが乗っ取られるほどの深刻なリスクを伴うものでした。

Cloudflareは、顧客のウェブサイトを保護するという使命感から、この緊急事態に迅速に対応しようとしました。彼らはこの攻撃を防ぐため、Webアプリケーションファイアウォール（WAF）に新たなセキュリティルールを急遽適用する方針を固めます。

### 重すぎた盾：設定ミスの連鎖
しかし、この「正義の盾」の適用が予期せぬ事態を引き起こします。設定変更の中には、データの解析ロジック（ボディパーシング）を変更する処理が含まれていました。これがバグを引き起こし、正常な通信までエラーとして弾いてしまう結果となったのです。まるで敵を防ぐために構えた盾が、味方をも巻き込んでしまうかのような状況でした。この結果、Cloudflareを経由する全トラフィックの約28%が影響を受け、世界中の多くのサイトがダウンしました。

### テストツールの盲点と一斉配信の悲劇
一体、システム内部で何が起きていたのでしょうか。発端は、WAFが検査できるデータサイズを従来の128KBから1MBに増やす設定変更でした。これは怪しいデータを見逃さないための合理的な判断であり、変更自体は段階的に展開されていたため、当初は問題ありませんでした。

しかし、途中で社内のWAFテストツールが、この新しい大規模なデータサイズに対応していないことが判明します。エンジニアは、顧客の通信に直接関係のないこのテストツールを一時的にオフにすることを決定しました。「邪魔なら消せばいい」という単純な判断が、後に大きな悲劇を招きます。

最初の慎重な変更とは異なり、このテストツールをオフにする変更だけは、全世界のサーバーに数秒で反映されるシステムを使って実行されてしまいました。前回の大規模障害の教訓が生かされず、再び「一斉配信」の過ちが繰り返されたのです。

その結果、古いバージョンのプロキシ「FL1」を使用しているサーバーでテストツールがオフになった瞬間、内部のプログラム「Lua」がパニック状態に陥ります。プログラムは「実行するはずのルールがない」と混乱し、「ニル」（無効な値）を参照しようとしてエラーを吐き、クラッシュ。これが、あの無慈悲な500エラーの連鎖を引き起こしました。幸いにも、この影響は古いプロキシを使用し、かつ特定のルールセットを適用していた顧客に限られたため、被害は全体の28%に留まりました。障害は設定変更から約25分後に元に戻されましたが、その短い時間で世界中のウェブサイトに混乱と影響をもたらしました。

### 長年潜んでいた「幽霊バグ」：ヌル参照の悲劇
今回の障害の核心部分、すなわち「なぜ機能をオフにしただけでシステムが吹き飛んだのか」という点については、さらに技術的な深層があります。Cloudflareのシステムにはトラフィックを制御するルールセットがあり、その中には「ブロック」や「ログ記録」といったアクションの他に、「実行（Execute）」というアクションが存在します。これは別のルールセットを呼び出す、いわば入れ子構造の命令です。

今回のケースでは、社内テスト用ルールを呼び出すためにこの「実行」アクションが使われていました。エンジニアはテスト用ルールを無効化するため、「キルスイッチ」を作動させ、この実行アクションをスキップさせました。キルスイッチ自体は正常に動作し、プログラムは命令通りに実行アクションをスキップしました。

しかし、ここから悲劇が始まります。アクションがスキップされたため、当然その結果（リザルト）は生成されません。つまり「虚」の状態です。ところが、その後の処理を行うコードの中に「もしアクションが実行されたら、その結果を参照しろ」という命令が残っていました。実行自体はキャンセルされたにもかかわらず、その後のコードは、実行されたはずの結果を見に行こうとしたのです。

そこには結果などなく、「ニル」（無）があるだけです。プログラムが結果を見せろと要求したとき、掴むものがなく、存在しないものを参照しようとしたことで、致命的な「ヌル参照」エラーが発生し、システムはクラッシュしました。これはプログラミングにおける典型的な初歩的ミスであり、本来であれば存在しない結果を参照する前に、それが存在するかどうかを確認すべきでした。

このヌル参照バグを含むコードは、何年も前から存在していました。しかし、今回のように「実行アクション」に対して「キルスイッチ」を使うという非常に稀な組み合わせが初めてだったため、今まで発覚することがありませんでした。長年眠っていた地雷を、運悪く踏み抜いてしまった形です。

さらに、この問題のコードが「Lua」という古いスクリプト言語で書かれていたことも、事態を悪化させました。もしCloudflareが現在推進している新しい言語「Rust」で書かれていれば、コンパイル（翻訳）の段階で「危険だ」とエラーが出て、未然に防ぐことができた可能性が高いとされています。古いシステムに内在する「技術的負債」が、世界中のインターネットを一時的に停止させるという形で露呈した瞬間でした。

### 教訓は生かされたのか？繰り返される悲劇と究極の対策
今回の障害でさらに衝撃的だったのは、わずか2週間前の11月18日にも同様の設定ミスによる大規模障害が発生していたことです。その際、Cloudflareは再発防止を誓っていましたが、なぜその教訓が生かされなかったのでしょうか。

同社の公式記事には、残酷な答えが記されています。「これらの変更により本日のインシデントによる影響を防ぐことができたと考えていますが、残念ながらまだ適用が完了していません。」つまり、対策方法は分かっており、計画も進められていたものの、実装が間に合わなかったのです。

11月の事故後、Cloudflareは数百もの顧客と議論を重ね、鉄壁の再発防止策を練っていました。その対策とは、一つには「段階的な展開」です。世界中のシステムに一斉に変更を適用するのではなく、少しずつ適用していく仕組み。もう一つは「フェイルオープン」です。もし設定ファイルが破損しても通信を遮断するのではなく、一時的にオープン状態にして影響を最小限に抑える仕組みです。

これらの安全装置があれば、今回のような設定ミスによる全滅は防げたはずでした。しかし、システムが巨大すぎたため、その安全装置を取り付ける「工事」が完了する前に、Reactの脆弱性対応という次のトラブルが襲いかかってきたのです。タイミングの悪さが、悲劇を繰り返す結果となりました。

Cloudflare側もこの事態を重く受け止め、「許容できるものではない」と謝罪しています。そして彼らは今、究極の手段に出ました。それは「変更のロックダウン（凍結）」です。安全装置が完全に機能するまでは、ネットワークへの設定変更を一切禁止するという措置を取ることを決定しました。

### 合理的な判断が招いた「最悪の結果」
今回の障害におけるエンジニアの判断は、ある意味では合理的でした。オフにされたWAFテストツールは、顧客のウェブサイトを表示したり保護したりするメイン機能ではなく、あくまで社内で新しいルールを検証するための裏方ツールです。エンジニアは、セキュリティ強化を急ぐ中で、このテストツールが対応しておらず邪魔だと判断しました。本番の通信には関係ない機能であるため、対応を待つよりも一時的にオフにしてセキュリティ強化を優先しようと考えたのです。

しかし皮肉なことに、本番に影響がないはずのこの変更が、即時展開システムに乗って全世界に配信され、古いシステムの地雷を全力で踏み抜いてしまいました。「影響ないはず」という言葉が、時に最も信用できない言葉であることを身をもって証明した形です。

セキュリティを優先しようとした結果、セキュリティどころかサービスそのものを破壊してしまった今回の事件。「急がば回れ」という格言を、世界中のエンジニアは改めて胸に刻むべきかもしれません。今回のCloudflare大規模障害は、プログラミングの恐ろしさと、巨大なシステムを運用する上での難しさ、そして技術的負債の重さを改めて浮き彫りにする、印象的な事例となりました。

ネットの反応

AIの所感

今回のCloudflareの大規模障害は、複雑なシステムにおける技術的判断の難しさ、予期せぬ連鎖反応の危険性を示す典型的な事例と言えるでしょう。特に「正義の行動」が結果的に障害を引き起こしたという点は、善意であってもリスク管理の重要性を再認識させます。古い技術的負債が現代の高速な開発サイクルの中で足かせとなる現実、一度決定された対策の実装が間に合わないという組織的な課題も浮き彫りになりました。最終的に「変更のロックダウン」という手段が取られたことは、安全性を最優先する姿勢の表れであると同時に、いかに状況が切迫していたかを示しています。エンジニアリングにおける「急がば回れ」の原則は、常に心に留めておくべき教訓です。