Khi AI Quá Tải: Microsoft Phải Nhờ AWS 'Giải Cứu' GitHub

Một trong những bất ngờ lớn nhất của ngành công nghệ đám mây vừa xảy ra vào giữa tháng 06/2026: Microsoft — gã khổng lồ sở hữu Azure — đã buộc phải tìm đến đối thủ truyền kiếp Amazon Web Services (AWS) để thuê thêm năng lực hạ tầng nhằm duy trì sự ổn định cho GitHub.
Nguyên nhân đứng sau cái bắt tay đầy khiên cưỡng này không có gì khác ngoài sự bùng nổ nằm ngoài mọi kịch bản dự báo của các AI coding agents (hay còn gọi là phát triển dạng tự hành - agentic development). Khi các dòng code không còn được gõ thủ công bởi con người mà được tự động sinh ra, kiểm thử và commit liên tục bởi hàng triệu AI agents hoạt động 24/7, hạ tầng mạng và lưu trữ của GitHub đã bị đẩy đến giới hạn chịu đựng cực đại.
Con số không tưởng: Từ 1 tỷ lên 14 tỷ commit
Theo số liệu từ Giám đốc Vận hành (COO) của GitHub, Kyle Daigle, lượng commit trên nền tảng này dự kiến sẽ chạm mốc 14 tỷ lượt trong năm 2026. Để dễ hình dung về mức độ khủng khiếp của con số này, toàn bộ năm 2025 GitHub ghi nhận khoảng 5 tỷ commit trên toàn thế giới (trong đó riêng thị trường Mỹ đã chiếm hơn 1 tỷ commit).
Sự tăng trưởng gần gấp 3 lần quy mô toàn cầu chỉ trong vỏn vẹn một năm đã biến GitHub từ một nền tảng lưu trữ mã nguồn truyền thống thành một "đại công trường" khổng lồ, nơi các AI coding agents liên tục tạo nhánh (branching), sửa lỗi (debugging), chạy thử nghiệm và đẩy mã nguồn mới lên hệ thống. Việc hàng triệu AI hoạt động đồng thời không mệt mỏi đã gây ra hàng loạt vụ gián đoạn dịch vụ và sự cố sập nguồn (outages) nghiêm trọng trên GitHub trong suốt nửa đầu năm 2026.
Sự quá tải hạ tầng đột ngột này đã đặt Microsoft vào một thế bí vô cùng nan giải.
Khi Azure "hụt hơi" trước cơn khát tài nguyên AI
Kể từ khi mua lại GitHub với giá 7,5 tỷ USD vào năm 2018, kế hoạch dài hạn của Microsoft luôn là di dời toàn bộ hạ tầng của GitHub về đám mây Azure của riêng mình, với thời hạn hoàn thành mục tiêu đặt ra là năm 2027. Tuy nhiên, tốc độ mở rộng trung tâm dữ liệu (data center) của Azure hiện tại không thể bắt kịp với "cơn khát" tài nguyên tính toán của các mô hình AI lớn và hệ thống đại lý tự động.
Azure hiện phải ưu tiên tối đa năng lực phần cứng (đặc biệt là các chip tăng tốc AI chuyên dụng) cho các dịch vụ cốt lõi như OpenAI Service, Microsoft 365 Copilot và Azure AI Studio. Khi hạ tầng của chính mình đang bị vắt kiệt công suất, Microsoft buộc phải lựa chọn: Hoặc chấp nhận nhìn GitHub liên tục gặp sự cố, ảnh hưởng trực tiếp đến trải nghiệm của hàng chục triệu developer toàn cầu, hoặc gạt bỏ cái tôi để tìm kiếm sự hỗ trợ bên ngoài.
Và họ đã chọn phương án thứ hai. Việc tận dụng năng lực tính toán linh hoạt (elastic compute) khổng lồ từ AWS chính là chiếc "phao cứu sinh" giúp GitHub phân tán bớt tải lượng truy cập khổng lồ từ các AI agents, đảm bảo khả năng mở rộng theo chiều ngang (horizontal scale) cho hệ thống lưu trữ mã nguồn lớn nhất hành tinh.
Cục diện Multi-Cloud không thể tránh khỏi
Phát ngôn viên của Microsoft sau đó đã xác nhận với giới báo chí rằng GitHub đang theo đuổi chiến lược multi-cloud (đa đám mây) để đảm bảo năng lực hệ thống bền vững trong tương lai. Dù họ không trực tiếp nêu tên Amazon trong thông báo, nhưng các nguồn tin thân cận từ giới công nghệ đều khẳng định AWS chính là đối tác được chọn để gánh vác một phần tải lớn của GitHub.
Bước đi này cho thấy một sự thay đổi sâu sắc trong cách vận hành hệ thống quy mô lớn ở kỷ nguyên AI:
- Hạ tầng đơn lẻ không còn đủ sức gánh vác: Kỷ nguyên mà một hệ thống cloud duy nhất có thể tự cân hết mọi tác vụ của một sản phẩm toàn cầu đã dần khép lại. Dưới sức ép của các tác vụ tự động hóa từ AI, việc phân tán tải sang các cloud khác nhau (multi-cloud) trở thành giải pháp sống còn để đảm bảo tính sẵn sàng cao (high availability).
- AI đang định hình lại mạng Internet: Các mô hình AI không chỉ tiêu tốn tài nguyên lúc huấn luyện (training) hay suy luận (inference), mà các hoạt động thực thi thực tế của chúng (như commit code, gọi API, kiểm thử tự động) đang tạo ra một lượng traffic khổng lồ chưa từng có tiền lệ, định hình lại cấu trúc lưu lượng mạng toàn cầu.
Những bài học đắt giá cho giới công nghệ
Sự kiện Microsoft phải dùng AWS để hỗ trợ GitHub mang lại những góc nhìn vô cùng giá trị cho các kỹ sư hệ thống và kiến trúc sư giải pháp:
- Khả năng co giãn (Elasticity) là vua: Khi thiết kế hệ thống, khả năng co giãn tự động theo nhu cầu thực tế phải được đặt lên hàng đầu. Một lượng traffic tăng đột biến gần gấp 3 lần quy mô toàn cầu chỉ trong một năm do các tác vụ tự động hóa hoàn toàn có thể đánh sập bất kỳ hệ thống phân tán nào nếu không có sự chuẩn bị về hạ tầng co giãn đa chiều.
- Thiết kế hệ thống sẵn sàng cho Multi-Cloud: Việc khóa chặt vào một nhà cung cấp đám mây duy nhất (vendor lock-in) có thể biến thành rào cản lớn khi hệ thống gặp khủng hoảng tài nguyên. Thiết kế ứng dụng độc lập với hạ tầng (cloud-agnostic) giúp doanh nghiệp linh hoạt dịch chuyển tải lượng khi cần thiết.
- Kỷ nguyên phát triển phần mềm bằng Agent (Agentic Era) đã thực sự bắt đầu: Đây không còn là lời đồn thổi hay xu hướng nhất thời. Khi chính hạ tầng lưu trữ mã nguồn lớn nhất thế giới bị quá tải bởi AI agents, điều đó chứng minh rằng một tỷ lệ rất lớn mã nguồn chạy trên thế giới hiện nay đang được viết bởi AI, cho AI và quản lý bởi AI.
Cái bắt tay bất đắc dĩ giữa Microsoft và AWS là một minh chứng rõ ràng nhất cho thấy: Trong kỷ nguyên AI, ngay cả những gã khổng lồ công nghệ hàng đầu thế giới cũng phải học cách linh hoạt thích ứng và hợp tác để không bị nhấn chìm bởi làn sóng công nghệ do chính họ góp phần tạo ra.
Bài viết được hỗ trợ bởi AI (Amy 🌸). Nội dung đã được kiểm duyệt bởi tác giả.
Related Posts
Miasma Worm: Khi AI Agent Trở Thành Cánh Tay Nối Dài Của Malware
Mã độc Miasma tấn công 73 repo của Microsoft, lợi dụng cơ chế hoạt động của Claude Code và Cursor để âm thầm đánh cắp credential của developer.
Nghịch Lý AI Coding Agent: Viết Code Tăng 180% Nhưng Ship Chỉ Tăng 30%
Nghiên cứu mới của NBER chỉ ra lỗ hổng lớn của AI coding agent: Tốc độ viết code cực nhanh nhưng hiệu quả đưa vào production lại là câu chuyện khác.
Kỷ Nguyên Loop Engineering: Boris Cherny Và Cách Ông Thôi Gõ Prompt
Trưởng dự án Claude Code tại Anthropic khẳng định không còn viết prompt đơn lẻ. Chào mừng bạn đến với kỷ nguyên 'loop engineering'.