Web3 の基盤となるインフラストラクチャ?昨日のCloudFlareサービス中断の原因の簡単な分析
出典: アルファウサギの研究ノート

出典: アルファウサギの研究ノート
この記事では、CloudFlareとは何なのか、どのような会社なのか、CloudFlareとWeb3の由来、失敗の理由を技術的に解説していきます。
最初のレベルのタイトル
この記事の構成
1. イベントの背景
2022年6月末(今週火曜日)に何が起こったのでしょうか?
2. CDN(コンテンツ配信ネットワーク)とは
CDNとは何ですか
ルーティングとは何ですか
CDN 会社は通常セキュリティ会社ですか?
3.Cloudflareとはどんな会社ですか?
4. CloudflareとWeb3の起源
IPFS&イーサリアム
5. Cloudflare でサービスが中断されるのはなぜですか? (テクニカル分析課)
アーキテクチャの変革に関連する
最初のレベルのタイトル
結論は
イベントの背景
イベントの背景
この記事では、CloudFlareとは何なのか、どのような会社なのか、CloudFlareとWeb3の由来、失敗の理由を技術的に解説していきます。
最初のレベルのタイトル
Cloudflareについて話す前に、概念(CDN)を普及させましょう
副題
CDN とは何ですか?CDN、正式名は Content Distribute Network (Content Distribution Network) または Content Delivery Network です。
では、コンテンツ配信ネットワークとは何でしょうか?インターネットを介して相互に接続できるコンピュータネットワークシステムであり、各ユーザーに最も近いサーバーを使用して、音楽、写真、ビデオ、アプリケーションなどのファイルをより速く、より確実にユーザーに送信し、高いパフォーマンス、拡張性、および性能を提供します。低コストの Web コンテンツをユーザーに配信します。視覚的に言えば、CDN は JD 物流モデルに似ています。
, 全国各地に物流ポイント (キャッシュ サーバー) を設置することで、誰かが JD.com から商品を購入するとき (ユーザー リソース リクエスト)、JD.com はユーザーの配送先住所 (ユーザー ドメイン名の CDN) に応じて最も近いまたは最も早い物流ポイントを見つけることができます。配信のためのロジスティクス ポイント (アクセス ユーザーをリソース転送のために最も近いキャッシュ サーバーに接続する)。
CDN サービスを使用すると、静的コンテンツを高速かつ信頼性高く配信できます。静的コンテンツはキャッシュ可能で、高速ネットワーク速度のネットワークでの保存と配信に最適です。これにより、リアルタイムで配信する必要がある動的コンテンツ用にバックボーン ネットワーク チャネルが解放されます。ウェブキャスティングなど、遅延を軽減します。たとえば、英国の会社があり、その主要な顧客も英国にいますが、この会社の Web サイトが開設されると、Web サイトのサーバーは通常英国に置かれます。ただし、Web サイトへのアクセスに影響を与える遅延が発生しますが、ネットワークの混雑が原因の場合は、遅延を改善することができます。
どうすれば改善できますか?
なお、ここでの光ファイバーの本数は、主に光海底ケーブルや鉄道、高速道路などのインフラ整備と同時に敷設されるものです。したがいまして、使用する帯域は年々増加してきておりまして、ネットワークローンの増加というのは交通道路の拡張、つまりお金をかけて敷設するということでご理解いただけると思います。
副題
ルーティング先ほどネットワークルーティングについて触れましたが、ルーティングとは何ですか?実際、ルーティングによって解決される主な問題は、2 つのポイント間の通信と、どのようなルートを取るかということです。
たとえば、ロンドンとオックスフォードの間でネットワークの輻輳が発生すると、システムは他のルートを選択できます。これはスマート交通機関に似ており、インターネット ルーティングの最適化も同様です。そのため、トラフィックの増加にもかかわらず、ネットワークのパフォーマンスは長年にわたり向上してきました。
平たく言えば、Web サイトを高速化することですが、一部の Web サイトは何らかの理由で開くのが非常に遅いため、CDN の高速化が必要になります。
したがって、ヨーロッパのユーザーがアメリカの Web サイトのコンテンツにアクセスしたい場合、CDN はヨーロッパにサーバーをセットアップし、アメリカのコンテンツをこのサーバーに翻訳します。ヨーロッパのユーザーがドメイン名にアクセスすると、CDN オペレーターはユーザーのアクセスがヨーロッパのシステムからのものであることを知っているため、ユーザーにヨーロッパのサーバーの IP アドレスを与え、ユーザーは自然にヨーロッパのサーバーにアクセスします。
副題
CDN 会社は通常セキュリティ会社ですか?
注: この部分の CDN の説明の一部は、Youtube ブロガー Lao Ke Tan Technology Stock から引用しています。
最初のレベルのタイトル
クラウドフレアってどんな会社?Cloudflare は 2010 年に正式に設立され、米国サンフランシスコに本社を置きます。 CDNやセキュリティサービスを主な事業としている企業で、Cloudflareはリバースプロキシベースのコンテンツ配信ネットワークと分散型ドメイン名解決サービス(分散ドメインネームサーバー)を顧客に提供することを主な事業としています。 2009年以来、同社はUnion Square Venturesなどのベンチャーキャピタルから投資を受けており、BaiduもCloudflareのDラウンドの資金調達に参加しており、
さらに、Cloudflareは、2014年にStopTheHackerとCryptoSeal、2016年にEager Platform Co.、2017年以降にNeumob、S2 Systems、Linc、Zaraz、VectrixとArea 1 Securityを含む一連のネットワークサービスおよびセキュリティ企業を買収しました。
最初のレベルのタイトル

CloudflareとWeb3の起源Cloudflare は、比較的早くから Web3 開発のサポートを開始した CDN 企業であり、その公式 Web サイトには次のように記載されています。さらに、公式ウェブサイトでは、Web 1.0 によって世界中に情報を迅速に伝達できるようになり、Web 2.0 によってこの情報がインタラクティブになったと述べられています。 Web 3.0 (Web3) は、IPFS やイーサリアムなどの分散テクノロジーに基づいて構築された、インターネットの次期バージョンと考えられています。

画像の説明
画像はCloudflare公式ウェブサイトより

Cloudflare Ethereum Gatewayを使用すると、顧客は独自のドメインを使用でき、HTTP JSON RPCクエリを介してカスタムドメインに送信できます。 Cloudflare は Web3 インフラストラクチャを管理、保守、監視できるため、ビルダーは Dapps の構築という重要なことに集中できます。 Cloudflareは、業界をリードするグローバルネットワークを通じて、Web3テクノロジーに基づいた安全で信頼性の高い高速なサービスを作成できます。
Cloudflareでサービスが停止するのはなぜですか?
副題
2022 年 6 月 21 日の Cloudflare サービス停止イベントの公式説明:
Cloudflareは、この機能停止について謝罪します。これはCloudflareのせいであり、攻撃やその他の悪意のあるアクティビティによるものではありません。
副題
このアーキテクチャ変革の背景
過去 18 か月間にわたり、Cloudflare は最も忙しいデータセンターすべてのアーキテクチャを変革し、より俊敏性と復元力を高めることに取り組んできました。現在、19 のデータセンターが、Cloudflare が社内で Multi-Colo PoP (MCP) と呼んでいるこのアーキテクチャへの変換に成功しており、これらの 19 のデータセンターはアムステルダム、アトランタ、アッシュバーン、シカゴ、フランクフルト、ロンドン、ロサンゼルス、マドリードにあります。 、マンチェスター、マイアミ、ミラノ、ムンバイ、ニューアーク、大阪、サンパウロ、サンノゼ、シンガポール、シドニー、東京。

この新しいアーキテクチャは Clos ネットワークとして設計されており、その重要な部分は追加のルーティング層 (下図を参照) の追加であり、接続のメッシュを作成します。このメッシュ構造により、メンテナンスや問題への対処のために、データセンターの内部ネットワークの一部を簡単に無効にしたり有効にしたりすることができます。このレイヤーは、下の図に示されているスパイン セクションで表されます。
注: Clos ネットワークは多段交換網です。この用語は 1953 年に Charles Clos によって初めて正式に使用され、実際の多段電話交換システムの理想化された表現を表しています。 Clos ネットワークは、物理回線スイッチング要件が単一のクロスバー スイッチで達成可能な最大容量を超える場合に使用されます。 Clos ネットワークの主な利点は、必要なクロスポイントの数が、大型のクロスバー スイッチを使用するスイッチング システム全体で必要なクロスポイントの数よりもはるかに少ないことです。ただし、これらの場所は Cloudflare のトラフィックの大部分もホストしているため、ここで問題が発生すると非常に広範囲に影響が及ぶ可能性があり、残念ながら、それが Cloudflare サービスが 6 月 21 日に終了した理由です。
副題
サービス停止のタイムラインと影響Cloudflareは、BGP(ボーダーゲートウェイプロトコル、ボーダーゲートウェイプロトコル、TCP上で動作する自律システムルーティングプロトコル)と呼ばれるプロトコルを使用します。"プロトコルのオペレータ定義ポリシーは、どのプレフィックス (隣接する IP アドレスのセット) をピア (接続されている他のネットワーク) にブロードキャストするかを決定します。これらのポリシーには、順番に評価される個別のコンポーネントがあります。最終結果は、特定のプレフィックスがブロードキャストされるかブロードキャストされないかのいずれかになります。ポリシーの変更は、以前はブロードキャストされていたプレフィックスがブロードキャストされなくなることを意味する場合があります。"取り消す
、これらの IP アドレスはインターネット上で正しく機能しなくなります。

オペレータは特定の戦略を策定し、特定のルート プレフィックスをブロードキャストできると決定しました(ここでのブロードキャストとは、ルートが他のエッジ BGP ルーターによって学習され、他の BGP ネットワークがこれらのルートの変更を認識できることを意味します。プレフィックスはプレフィックスです。インターネットに接続されているネットワーク番号を一意に識別するために使用されます)
プレフィックスアドバタイズメントポリシーが変更されると、用語が再整理され、Cloudflare がプレフィックスの重要なサブセットを削除することになります。
03:56 UTC:ポリシーの変更は、以前にブロードキャストされていたプレフィックスがブロードキャストされなくなることを意味する可能性があり、Cloudflareのエンジニアは、影響を受けたデータセンターの問題のある部分を回復するのにさらなる困難を抱えていますが、Cloudflareはそのような問題に対処するためのバックアップ手順を用意しています。
06:17:Cloudflareは変更を最初の(データセンター)場所にデプロイしましたが、これらの場所で使用されていたアーキテクチャが古いため、どの場所もこの変更の影響を受けませんでした。
06:27:導入はCloudflareの最も混雑する場所に変更されますが、MCP(Multi-Colo PoP)アーキテクチャを備えた場所には変更されません。
06:32:導入は MCP (Multi-Colo PoP) が有効になる段階に達し、重要な部分に変更が導入されました。この時点で障害が始まり、19 のデータセンターがすぐにオフラインになりました。
06:51:Cloudflareは社内で停止を発表した。
06:58:根本原因を確認するためにルーターに加えられた最初の変更。
07:42:トラブルシューティングを行って根本原因を特定し、問題を修復します
08:00:最後の元に戻すことが完了し、ネットワーク エンジニアは相手側の変更をチェックし始めてステータスを元に戻しましたが、その時点で問題が散発的に再発したため、少し遅れが生じました。
サービス中断イベントは終了しました。

これらの問題のあるデータセンターはCloudflareのネットワーク全体のわずか4%を占めていましたが、この停止はリクエスト全体の50%に影響を与えました。

(この部分にはコードの一部が含まれていますが、ここでは省略されています。興味のあるネットワーク エンジニアリング パートナーは、元のテキストを参照できます。
https://blog.cloudflare.com/cloudflare-outage-on-june-21-2022/)
文章
修復と次のステップ
このサービス端末のインシデントは、広範かつ深刻な影響を引き起こしました。Cloudflare は常に使いやすさを重視しており、すでにいくつかの改善点を提案しており、サービス端末に潜在的につながる可能性のあるすべての問題を見つけるために引き続き懸命に取り組んでいきます。プロセス:
MCP プログラムは可用性を向上させるように設計されていますが、これらのデータ センターの更新には手順上のギャップがあり、深刻な影響を及ぼしました。 Cloudflareは段階的な戦略を念頭に置いていますが、それは完璧ではなく、意図しない結果が生じないように、展開プロセスと自動化にはMCPテストと特定の展開プロセスを含める必要があります。建築:
ルーターの構成が正しくないと、適切なルート ブロードキャストが妨げられ、通常のトラフィックとインフラストラクチャの動作が妨げられる可能性があります。 Cloudflareは、ソートエラーを防ぐためにルート広告のポリシーステートメントを再設計します。オートメーション:"Cloudflareの自動化スイートには、このインシデントによる悪影響を軽減できる部分があります。 Cloudflareは自動化の改善に重点を置き、ネットワーク構成のロールアウトのために改善されたインターリーブポリシーを適用し、自動化されたサービスを提供します。"副題
結論は
結論は


