63% Chi Phí Chip AI Dành Cho Memory: GPU Không Còn Là Bottleneck

Karify98 & Amy 🌸·
Cover Image for 63% Chi Phí Chip AI Dành Cho Memory: GPU Không Còn Là Bottleneck

Trong 2 năm qua, cuộc đua AI tập trung vào GPU compute. Nhưng Epoch AI vừa công bố dữ liệu cho thấy một sự thật khác: 63% chi phí linh kiện chip AI giờ dành cho memory, không phải bộ xử lý. Đây là tín hiệu rõ ràng nhất về nơi bottleneck thực sự của AI infrastructure đang nằm.

Con Số Khiến Mọi Người Ngạc Nhiên

Theo phân tích của Epoch AI, chi phí HBM (High-Bandwidth Memory) trong chip AI tăng từ 52% lên 63% chỉ trong 18 tháng (Q1/2024 – Q4/2025). Trong cùng kỳ, tỷ trọng chi phí đóng gói giảm từ 19% xuống 15%, và các thành phần phụ trợ giảm từ 15% xuống 9%. Logic die gần như không đổi ở 13–14%.

Tổng chi phí linh kiện chip AI tăng từ $22 tỷ lên $52 tỷ, nhưng riêng HBM đóng góp $20 tỷ trong mức tăng đó.

NVIDIA B200 là minh chứng cụ thể. Chi phí sản xuất khoảng $6,400, riêng HBM chiếm $3,200 — 192 GB HBM3E với giá khoảng $15 mỗi GB. Hơn 50% chi phí vật lý chỉ dành cho bộ nhớ. Khi người dùng trả $30,000–$40,000 để thuê B200, phần lớn số tiền đó chảy vào memory, không phải compute.

Từ "bộ xử lý gắn memory" — cách chip truyền thống hoạt động — AI chip đang trở thành "memory gắn bộ xử lý".

Nguồn Cung HBM: Bán Hết Đến 2027

Chỉ ba công ty sản xuất HBM quy mô: SK Hynix (62% thị phần), Samsung, và Micron. Cả ba đã bán hết đến cuối 2026.

SK Hynix xác nhận đã bán toàn bộ nguồn cung 2026. Micron tuyên bố tương tự. Samsung nâng giá hợp đồng HBM thêm 15–20% cho 2026. Bốn nhà thiết kế chip AI lớn nhất — Nvidia, Google, AMD, Amazon — tiêu thụ hơn 90% nguồn cung HBM toàn cầu trong 2025, theo Epoch AI.

OpenAI COO Brad Lightcap nói thẳng tại Hill and Valley Forum tháng 3: "Giờ đây, bottleneck là memory." Ông chỉ ra ràng buộc từng nằm ở năng lượng cho data center, sau đó là GPU compute. Giờ là HBM.

Công suất mới từ SK Hynix (Hàn Quốc), Micron (Singapore), và Samsung (Pyeongtaek) sẽ không có sản lượng đủ lớn trước cuối 2027. Khoảng trống 18 tháng này tạo áp lực lên toàn bộ chuỗi cung ứng.

Ảnh Hưởng Trực Tiếp Đến Developer

Các hyperscaler — AWS, Google Cloud, Azure, Meta — đã ký hợp đồng HBM nhiều năm trước khi thiếu hụt. Họ giữ giá 2024, trong khi thị trường phải trả giá spot hoặc không có hàng.

Tác động lan rộng: giá DDR5 96GB tăng từ $280 lên hơn $1,000 khi nhà sản xuất chuyển capacity sang HBM có biên lợi nhuận cao hơn. OVH Cloud thông báo tăng giá GPU 5–10% cho giai đoạn tháng 4–9/2026.

Đối với developer, thiếu hụt HBM biến kiến trúc phần mềm thành quyết định tài chính.

Cách Developer Thích Ứng

Quantization (INT8 hoặc INT4) giảm một nửa dung lượng HBM cần thiết cho inference, chất lượng gần như không suy giảm trên hầu hết tác vụ production.

Mixture-of-Experts (MoE) — các mô hình như DeepSeek V4 và Mixtral — chỉ kích hoạt một phần nhỏ tham số mỗi token, giảm đáng kể băng thông memory active. Đây là kiến trúc ưu tiên bộ nhớ, không phải tối ưu tình cờ.

Chạy mô hình nhỏ hơn trên GPU cũ với HBM2E là giải pháp tạm thời khả thi trong khi HBM3E vẫn khan hiếm.

API-first — chiến lược rõ ràng nhất cho hầu hết team. Sử dụng AI qua cloud endpoints, để hyperscaler chịu chi phí hạ tầng. Trong thị trường HBM bị phân phối, tự xây GPU cluster là đặt cược chống lại chuỗi cung ứng.

Sự Thay Đổi Chiến Lược

Cuộc đua GPU compute đã phần nào kết thúc — nguồn cung nới lỏng, chi phí giảm, lựa chọn thay thế tăng. Memory là yếu tố quyết định hai năm tới.

Tình hình hiện tại gợi nhớ cuộc khủng hoảng GPU 2021–2022, nhưng lần này vấn đề nằm ở memory bandwidth, không phải GPU compute. Khoảng trống 18 tháng trước khi công suất mới sẵn sàng khiến developer cần lên kế hoạch ngay.

Seymour Cray từng nói: "Nếu bạn bị buộc phải chọn, hãy ghép đôi bộ nhớ nhanh với bộ xử lý chậm." Triết lý đó đang quay lại — ở quy mô lớn hơn nhiều.

Câu hỏi chiến lược không còn là "dùng GPU nào" mà là "tối ưu memory như thế nào". Đội hiểu điều này sớm sẽ có lợi thế cạnh tranh về chi phí và khả năng mở rộng.


Tham khảo: