"Tôi đang hoảng loạn, chuyện gì đã xảy ra vậy?" Sự cố mất điện của Cloudflare gây ra tình trạng hỗn loạn trên internet toàn cầu.
Tác giả gốc: Zhao Yuhe
Nguồn gốc: Wall Street News
Sáng thứ Ba giờ miền Đông, nhà cung cấp dịch vụ cơ sở hạ tầng internet Cloudflare cho biết mạng lưới toàn cầu của họ đang gặp sự cố bất thường, khiến nhiều trang web, bao gồm cả nền tảng mạng xã hội X, gặp phải "lỗi máy chủ nội bộ" và các vấn đề truy cập khác. Người dùng không thể truy cập nhiều trang web và dịch vụ, bao gồm bán lẻ, thương mại điện tử, mạng xã hội, dịch vụ tài chính và các nền tảng liên quan đến giao thông. Công ty sau đó tuyên bố rằng sự cố đã được khắc phục trong vòng chưa đầy bốn giờ.

Trong thời gian ngừng hoạt động, một số chức năng của X đã bị gián đoạn và một số trang web cũng không thể truy cập được. Theo dữ liệu từ nền tảng theo dõi lỗi Downdetector, ngoài X, một số lượng lớn các trang web khác cũng bị ảnh hưởng, và số lượng báo cáo liên quan tiếp tục tăng. Người dùng đã thấy thông báo lỗi liên quan đến Cloudflare khi truy cập các trang web như X, ChatGPT, DoorDash, IKEA và Cơ quan Giao thông Vận tải Đô thị (MTA) của Thành phố New York.


Sau đó, người phát ngôn của Cloudflare tuyên bố rằng vào khoảng 6:20 sáng Giờ miền Đông, một trong những dịch vụ của họ đã gặp phải tình trạng lưu lượng truy cập tăng đột biến bất thường, gây ra lỗi trong lưu lượng truy cập đi qua mạng của công ty.
Một phát ngôn viên khác của Cloudflare, Jackie Dutton, cho biết trong một thông báo rằng sự cố này là do một tệp cấu hình được tạo tự động dùng để quản lý lưu lượng đe dọa gây ra, và việc khắc phục sự cố mất chưa đầy bốn giờ. Công ty tuyên bố rằng các biện pháp khắc phục cốt lõi đã được triển khai, nhưng thận trọng lưu ý rằng hệ thống "vẫn cần thời gian để ổn định hoàn toàn".
Dutton tuyên bố:
"Tệp chứa nhiều mục hơn dự kiến, gây ra sự cố trong hệ thống phần mềm chịu trách nhiệm xử lý lưu lượng truy cập đến một phần dịch vụ của Cloudflare."
Tuyên bố cho biết không có bằng chứng nào cho thấy sự cố này liên quan đến tấn công mạng hoặc hoạt động độc hại.
Tác động của sự cố ngừng hoạt động này cực kỳ lan rộng. Downdetector tuyên bố trên nền tảng của mình rằng trong sự cố ngừng hoạt động của Cloudflare, "đã nhận được hơn 2,1 triệu báo cáo về các dịch vụ bị ảnh hưởng khác nhau", cho thấy sự cố này đã trở thành một trong những sự cố ngừng hoạt động nghiêm trọng nhất ở cấp độ cơ sở hạ tầng trong những năm gần đây.

Sau sự cố này, giá cổ phiếu của Cloudflare ban đầu giảm 7% khi mở cửa phiên giao dịch vào thứ Ba trước khi phục hồi.

Ngành công nghiệp tài sản kỹ thuật số cũng đã phản ứng. Đồng sáng lập và cựu CEO của Binance, Changpeng Zhao, đã đăng trên X, "Blockchain vẫn hoạt động", ngụ ý rằng các hệ thống phi tập trung không bị ảnh hưởng bởi sự cố này.
Tính đến 12:15 chiều giờ miền Đông, Cloudflare cho biết hệ thống đang dần phục hồi, nhưng lỗi truy cập, suy giảm hiệu suất hoặc sự cố đăng nhập vẫn có thể xảy ra ở một số khu vực trên toàn cầu. Công ty sẽ tiếp tục cập nhật tiến độ phục hồi trên trang trạng thái.

Quá phụ thuộc vào một số ít công ty
Trong những năm gần đây, các vấn đề liên quan đến nhà cung cấp cơ sở hạ tầng kỹ thuật số đã liên tục làm tê liệt việc truy cập internet toàn cầu. Amazon Web Services (AWS), CrowdStrike Holdings Inc. và Microsoft đều đã gặp phải những sự cố tương tự, cho thấy sự phụ thuộc đáng kể của internet toàn cầu vào một số ít công ty cung cấp dịch vụ.
Các dịch vụ Cloudflare và AWS gần như "vô hình" với người dùng thông thường, nhưng các công cụ của họ lại cung cấp năng lượng cho rất nhiều trang web và dịch vụ mà người tiêu dùng sử dụng hàng ngày.
Sự cố ngừng hoạt động của AWS tháng trước đã làm tê liệt một số khu vực của Internet, khiến hàng triệu trang web và ứng dụng của người dùng không thể sử dụng, làm gián đoạn hoạt động bán lẻ, ảnh hưởng đến mạng xã hội và các dịch vụ tài chính, đồng thời tác động đến nhiều doanh nghiệp. Năm ngoái, một lỗ hổng trong công cụ được công ty an ninh mạng CrowdStrike sử dụng đã gây ra sự cố sập hệ thống máy tính trên diện rộng trên toàn cầu, gây ra hàng nghìn vụ hoãn và hủy chuyến bay, đồng thời khiến các cơ quan chính phủ và các tập đoàn lớn rơi vào tình trạng hỗn loạn.
Graeme Stewart, một chuyên gia tại công ty an ninh mạng Check Point Software có trụ sở tại California, cho biết sự cố này cho thấy sự phụ thuộc quá mức của Internet vào một số ít nhà cung cấp cơ sở hạ tầng.
Ông nói:
"Nhiều tổ chức vẫn dựa vào cùng một đường dẫn cho tất cả các dịch vụ quan trọng của họ mà không có bất kỳ bản sao lưu thực sự hiệu quả nào. Nếu đường dẫn đó bị lỗi, sẽ không có tùy chọn sao lưu nào. Đây là vấn đề mà chúng tôi vẫn thường xuyên gặp phải."
Giáo sư an ninh mạng Alan Woodward của Đại học Surrey cho biết sự cố ngừng hoạt động hôm thứ Ba một lần nữa cho thấy sự phụ thuộc quá lớn của internet vào "một số ít đối tượng". Ông mô tả Cloudflare là "công ty lớn nhất mà bạn chưa từng nghe đến".
"Mọi người không còn lựa chọn nào khác ngoài việc phải dựa vào một số ít công ty lớn này."
Giám đốc Công nghệ xin lỗi
Giám đốc Công nghệ (CTO) của Cloudflare, Dane Knecht, đã xin lỗi về sự cố này. Ông viết trên X:
"Khi mạng lưới của Cloudflare gặp sự cố ảnh hưởng đến lưu lượng truy cập khổng lồ mà chúng tôi phụ thuộc, chúng tôi đã làm khách hàng thất vọng, và chúng tôi đã làm cả internet thất vọng. Bản thân sự cố, tác động mà nó gây ra, và thời gian xử lý là không thể chấp nhận được. Chúng tôi đã bắt đầu nỗ lực để đảm bảo những tình huống tương tự không xảy ra nữa, nhưng tôi biết rằng hôm nay thực sự đã gây ra bất tiện cho tất cả mọi người. Niềm tin của khách hàng dành cho chúng tôi là tối quan trọng, và chúng tôi sẽ làm mọi cách để lấy lại niềm tin đó."
Cloudflare đã gặp phải sự cố ngừng hoạt động tương tự nhiều lần trong vài năm qua.
Vào tháng 7 năm 2019, một lỗ hổng trong phần mềm Cloudflare đã khiến một số mô-đun mạng tiêu thụ quá mức tài nguyên máy tính, khiến hàng nghìn trang web trên toàn thế giới dựa vào Cloudflare (bao gồm Discord, Shopify, SoundCloud và Coinbase) bị ngừng hoạt động trong tối đa 30 phút. Vào tháng 6 năm 2022, Cloudflare đã gặp sự cố ngừng hoạt động, ảnh hưởng đến lưu lượng truy cập đến 19 trung tâm dữ liệu của mình, khiến một số trang web và dịch vụ lớn ngừng hoạt động trong khoảng một tiếng rưỡi.
Phần mềm Cloudflare được hàng trăm nghìn công ty trên toàn thế giới sử dụng như một lớp đệm giữa các trang web doanh nghiệp và người dùng cuối, bảo vệ các trang web khỏi các cuộc tấn công DDoS hoặc sự cố ngừng hoạt động do lưu lượng truy cập tăng đột ngột.
Năm ngoái, một bản cập nhật phần mềm bị lỗi do công ty an ninh mạng CrowdStrike phát hành đã khiến hàng triệu thiết bị chạy Microsoft Windows bị sập, gây ra sự gián đoạn trên diện rộng trong nhiều ngành công nghiệp, bao gồm hàng không, ngân hàng và chăm sóc sức khỏe.
Sự cố ngừng hoạt động của CrowdStrike xuất phát từ một lỗi trong sản phẩm của họ, chạy ở cấp độ thấp nhất của máy tính khách hàng. Mặt khác, Cloudflare bảo vệ cơ sở hạ tầng internet như trang web và nền tảng; do đó, khi Cloudflare ngừng hoạt động, nhiều trang web phổ biến sẽ không thể truy cập hoặc gặp sự cố. Cloudflare chủ yếu tập trung vào việc duy trì hoạt động trực tuyến và tốc độ cao cho các trang web, trong khi CrowdStrike tập trung vào việc bảo vệ máy tính và máy chủ khỏi các cuộc tấn công.
- 核心观点:Cloudflare宕机暴露互联网基础设施集中风险。
- 关键要素:
- 配置文件异常触发系统崩溃。
- 超210万服务报告受影响。
- 区块链系统未受此次事件波及。
- 市场影响:引发对中心化基础设施依赖的反思。
- 时效性标注:长期影响


