Skip to content

DeepSeek DSpark: Tăng Tốc Độ Sinh Token 85% Nhờ Speculative Decoding

Karify98 & Amy 🌸·
Cover Image for DeepSeek DSpark: Tăng Tốc Độ Sinh Token 85% Nhờ Speculative Decoding

Ngày 27/6/2026, DeepSeek không tung ra một model mới nào. Thay vào đó, họ mở mã nguồn DSpark — một hệ thống speculative decoding giúp tăng tốc độ sinh token lên tới 85% trên DeepSeek-V4-Flash mà không cần nâng cấp GPU.

Con số 85% xuất hiện trong môi trường vận hành thực tế của chính DeepSeek, không phải benchmark phòng lab. Và quan trọng hơn: họ không chỉ công bố báo cáo kỹ thuật — họ phát hành toàn bộ codebase DeepSpec kèm model checkpoint, giấy phép MIT.

Speculative Decoding Là Gì — Và Tại Sao Nó Quan Trọng?

Một LLM thông thường sinh token một cách tuần tự: dự đoán token tiếp theo, rồi dùng token đó để dự đoán token sau, cứ thế lặp lại. Càng sinh dài, thời gian chờ càng tăng.

Speculative decoding "ăn gian" quy trình này. Thay vì bắt model lớn tự sinh từng token, nó dùng một draft model nhỏ hơn để phỏng đoán nhanh một khối token. Sau đó model lớn kiểm tra toàn bộ khối trong một lần chạy duy nhất. Token nào đúng thì được chấp nhận, token nào sai thì quay lại từ điểm sai.

Nói đơn giản: để trợ lý cấp dưới phác thảo vài từ tiếp theo, rồi để sếp duyệt hoặc sửa trong một lần.

Vấn đề là: draft model phải vừa nhanh vừa chính xác. Draft càng chính xác thì model lớn chấp nhận càng nhiều token, throughput càng cao. Draft sai nhiều thì model lớn phải xác thực lại nhiều lần, tốn tài nguyên tính toán vô ích.

DSpark Giải Quyết Gì Mà Các Cách Cũ Không Làm Được?

Các draft model trước đây rơi vào hai thái cực:

  • Tuần tự (như Eagle3): mỗi token được dự đoán dựa trên token trước đó. Kết quả chính xác hơn, nhưng chi phí draft tăng theo kích thước khối.
  • Song song (như DFlash): toàn bộ khối token được dự đoán cùng lúc. Rất nhanh, nhưng các token không liên kết với nhau, dẫn đến "multi-modal collision" — các token ở vị trí sau thường không mạch lạc và bị từ chối.

DSpark chọn con đường ở giữa: tự hồi quy bán phần (semi-autoregressive generation).

Kiến trúc gồm hai tầng. Tầng đầu là parallel backbone (DFlash) sinh logit cơ bản cho tất cả vị trí cùng lúc. Tầng thứ hai là một sequential head (nhánh tuần tự) nhẹ, mặc định dùng Markov head để chỉ nhìn token ngay trước đó. Với phân rã low-rank (rank 256), nó điều chỉnh phân phối xác suất trước khi lấy mẫu (sample) từng token.

Kết quả: DSpark giữ được tốc độ draft gần như song song, nhưng các token được liên kết với nhau đủ để model lớn chấp nhận chuỗi dài hơn. Chiều dài chuỗi được chấp nhận (accepted length) tăng 26–31% so với Eagle3, 16–18% so với DFlash trên benchmark.

Confidence-Scheduled Verification: Không Xác Thực Mù Quáng

Đây là phần tinh vi nhất của DSpark, và cũng là thứ khiến nó khác biệt trong môi trường vận hành thực tế.

Bình thường, speculative decoding xác thực (verify) toàn bộ khối token draft. Nhưng không phải token nào cũng đáng xác thực — token có độ tin cậy (confidence) thấp gần như chắc chắn bị từ chối, tiêu tốn tài nguyên tính toán của model lớn vô ích.

DSpark gắn thêm một nhánh độ tin cậy (confidence head) — ước tính xác suất mỗi draft token được chấp nhận. Áp dụng Sequential Temperature Scaling để hiệu chuẩn (calibrate) nhằm giảm lỗi hiệu chuẩn (calibration error) từ 3–8% xuống còn ~1%.

Rồi đến bộ lập lịch tiền tố nhận biết phần cứng (hardware-aware prefix scheduler): quyết định xác thực bao nhiêu token dựa trên tải GPU hiện tại. Khi GPU rảnh, xác thực nhiều token hơn. Khi tải cao, bộ lập lịch (scheduler) thắt chặt, bỏ qua các token có độ tin cậy thấp để bảo vệ thông lượng (throughput).

Đây không phải tối ưu hóa lý thuyết. DeepSeek đã triển khai DSpark vào hệ thống phục vụ (serving) thực tế của DeepSeek-V4. Nơi đây, lưu lượng truy cập (traffic) từ người dùng tạo ra các điều kiện khắc nghiệt như xử lý đồng thời (concurrency), đột biến tải (load spikes), và khả năng xử lý (capacity) GPU hữu hạn mà các bài benchmark không mô phỏng được.

Hiệu Quả Thực Tế: Không Chỉ Là Con Số Trên Giấy

Dưới đây là các con số đáng chú ý nhất từ báo cáo kỹ thuật và triển khai thực tế:

Tình huống Mức cải thiện Ghi chú
V4-Flash, tốc độ mỗi người dùng (per-user speed) 60–85% So với mức nền (baseline) MTP-1
V4-Pro, tốc độ mỗi người dùng (per-user speed) 57–78% So với mức nền (baseline) MTP-1
Chiều dài được chấp nhận (accepted length) vs Eagle3 +26–31% Trên Qwen3 4B-14B
Chiều dài được chấp nhận (accepted length) vs DFlash +16–18% Trên Qwen3 4B-14B
Hiệu chuẩn độ tin cậy (confidence calibration) lỗi ~1% (error) Sau Sequential Temperature Scaling

Điểm gây chú ý: DSpark 2 lớp (2-layer) thậm chí vượt DFlash 5 lớp (5-layer). Nhánh tuần tự (sequential head) thêm chi phí không đáng kể — việc mở rộng chiều dài dự thảo (scaling draft length) từ 4 lên 16 token chỉ thêm 0.2–1.3% latency mỗi vòng.

Điều Này Có Ý Nghĩa Gì Với Developer?

Quá trình suy luận (inference), không phải huấn luyện (training), mới là chi phí ngầm lớn nhất của AI. Mỗi câu trả lời dài, mỗi vết suy luận (reasoning trace), mỗi cuộc hội thoại nhiều lượt (multi-turn conversation) đều tiêu tốn tài nguyên tính toán trên GPU đắt đỏ. Nếu speculative decoding có thể tăng thông lượng (throughput) 60–85% mà không giảm chất lượng, bài toán kinh tế của việc phục vụ các mô hình tiên tiến nhất (frontier model) sẽ thay đổi.

Ba hệ quả cụ thể:

  1. Latency thấp hơn cho người dùng cuối. Không cần đợi model "nghĩ" từng token một. Trải nghiệm phản hồi nhanh chóng và mượt mà hơn (responsive), đặc biệt với sinh mã nguồn (code generation) và chat dài.

  2. Hiệu suất sử dụng GPU (GPU utilization) tốt hơn cho nhà cung cấp. Cùng phần cứng, hệ thống phục vụ (serve) được nhiều yêu cầu (request) hơn, chịu được lượng truy cập đồng thời (concurrency) cao hơn. Với các nhà cung cấp API, điều này chuyển trực tiếp thành lợi nhuận biên.

  3. Kỹ thuật tối ưu hóa suy luận (inference optimization) trở thành open-source. DeepSpec là MIT license, bao gồm chuẩn bị dữ liệu (data preparation), mã nguồn huấn luyện (training code), và quy trình đánh giá (evaluation pipeline). Không còn là bí mật nội bộ của các công cụ suy luận (inference engine) đóng.

Mặt Trái Và Giới Hạn

DSpark không phải là phép màu. Có vài điểm cần lưu ý:

  • Không phải mô hình mới. Checkpoint DSpark dùng lại trọng số (weight) của V4 gốc, chỉ gắn thêm mô-đun dự thảo (draft module). Chất lượng đầu ra (output) không thay đổi — đây là tối ưu hóa quá trình phục vụ (serving), không phải cải thiện năng lực (capability).

  • Bộ nhớ đệm mục tiêu (target cache) khổng lồ. DeepSpec README cảnh báo bộ nhớ đệm (cache) cho Qwen3-4B có thể lên tới 38 TB. Không phải ai cũng có hạ tầng để huấn luyện (train) mô hình dự thảo (draft model) từ đầu.

  • Hiệu quả phụ thuộc vào khối lượng công việc (workload). Quá trình sinh cấu trúc (structured generation) như mã nguồn có tỷ lệ chấp nhận (acceptance rate) cao tự nhiên, hưởng lợi nhiều nhất. Hội thoại mở (open-ended chat) cần quét ngưỡng độ tin cậy (confidence threshold sweep) để đạt hiệu quả tương đương.

  • Yêu cầu GPU. Quy trình huấn luyện (training pipeline) mặc định giả định 1 nút (node) 8 GPU. Quá trình suy luận (inference) vẫn cần GPU để chạy cả mô hình dự thảo lẫn mô hình mục tiêu (target model), dù mô hình dự thảo nhẹ hơn nhiều.

Tại Sao Đây Là Tín Hiệu Đáng Theo Dõi

Có một xu thế (pattern) lớn hơn đằng sau DSpark.

Trong 18 tháng qua, các phòng lab AI Trung Quốc không chỉ cạnh tranh về benchmark. Họ đang công bố ngày càng nhiều nghiên cứu hệ thống (systems research): tối ưu hóa bộ nhớ (memory), cải thiện thông lượng phục vụ (serving throughput), giảm latency. Qwen công bố nghiên cứu về tối ưu hóa cơ chế chú ý (attention optimization). DeepSeek công bố DSpark, DeepSpec, và trước đó là các bài báo nghiên cứu về hiệu quả của MoE (MoE efficiency).

Đây là một chiến lược khác với "đơn thuần đuổi theo mô hình tiên tiến nhất (frontier model)". Nếu bạn không thể luôn có mô hình mạnh nhất, hãy làm cho mô hình hiện tại chạy rẻ hơn và nhanh hơn đối thủ.

Đối với developer, điều này có nghĩa là: các kỹ thuật tối ưu hóa suy luận (inference optimization) đang được phổ cập (democratized). Những gì trước đây là bí mật của các công cụ suy luận (inference engine) thương mại (như vLLM, TensorRT-LLM) giờ đây có mã nguồn mở, bài báo nghiên cứu rõ ràng, checkpoint sẵn sàng.

DeepSeek DSpark không phải là tin tức hào nhoáng nhất tuần này — không phải mô hình mới, không phải định giá (valuation) tỷ đô. Nhưng nó là một trong những mảnh ghép quan trọng nhất cho bài toán "AI ở quy mô vận hành thực tế (production)". Và nó được mở mã nguồn hoàn toàn.


Điều cần nhớ:

  • DSpark tăng tốc sinh token 60–85% trên DeepSeek-V4 mà không cần thêm GPU
  • Semi-autoregressive generation kết hợp tốc độ của dự thảo song song (parallel draft) với độ chính xác của dự thảo tuần tự (sequential draft)
  • Bộ lập lịch nhận biết phần cứng (hardware-aware scheduler) điều chỉnh số token cần xác thực (verify) theo tải GPU thực tế
  • DeepSpec (MIT license) là một codebase hoàn chỉnh để huấn luyện (train) và đánh giá (evaluate) speculative decoding
  • Đây là tối ưu hóa phục vụ (serving), không phải mô hình mới — chất lượng đầu ra (output) không đổi
  • Tối ưu hóa suy luận (inference optimization) đang trở thành chiến trường mã nguồn mở tiếp theo

Bài viết được hỗ trợ bởi AI (Amy 🌸). Nội dung đã được kiểm duyệt bởi tác giả.

Related Posts