Zoom-in: LLM

Mỗi ngày, hàng triệu người trò chuyện với các LLM (Large Language Model - Mô hình ngôn ngữ lớn) và kinh ngạc trước khả năng trả lời câu hỏi, viết code hay giải quyết logic phức tạp của chúng. Tuy nhiên, ít ai dừng lại để hỏi: bên trong black box đó thực chất đang diễn ra điều gì?

Phóng to dần vào cơ chế cốt lõi của mô hình.

Layer 1 — Bản chất: Trò chơi dự đoán Next-Token

Khác với trí tưởng tượng của số đông về một thực thể có ý thức, mọi LLM hiện đại đều hoạt động dựa trên một nguyên lý thống kê đơn giản: Next-Token Prediction (Dự đoán token tiếp theo).

Hãy nghĩ về tính năng auto-suggest (gợi ý từ) trên bàn phím điện thoại của bạn, nhưng được nâng lên quy mô siêu máy tính.

graph LR
    Input["✍️ Dữ liệu đầu vào: 'Ăn quả nhớ kẻ...'"] --> Model["🖥️ LLM"]
    Model --> Output["Output: 'trồng' (Xác suất cao nhất)"]
    style Input fill:#1e293b,stroke:#475569,color:#cbd5e1
    style Model fill:#1e293b,stroke:#475569,color:#cbd5e1
    style Output fill:#1e293b,stroke:#475569,color:#cbd5e1

Khi bạn nhập một prompt, mô hình không "suy nghĩ" để tìm câu trả lời. Thay vào đó, nó tính toán xác suất của tất cả các token (mảnh từ/ký tự) có thể xuất hiện tiếp theo trong vocabulary (từ điển) của nó, dựa trên context bạn vừa viết. Nó chọn token tối ưu nhất, ghép vào chuỗi cũ, rồi lặp lại quá trình đó cho đến khi sinh ra toàn bộ câu trả lời.

→ Bản chất của sự thông minh ở đây là khả năng dự đoán xác suất cực kỳ chính xác nhờ việc học từ hàng triệu văn bản.

Layer 2 — Chữ "Lớn" nằm ở đâu?

Tại sao cơ chế đoán từ đơn giản lại tạo ra được trí tuệ nhân tạo vượt trội? Chữ "Lớn" (Large) chính là chìa khóa mở ra năng lực suy luận đột phá này, thể hiện qua ba trục chính:

1. Số lượng Parameter (Tham số)

Parameter là các trọng số toán học (weight) bên trong mạng thần kinh (neural network). Bạn có thể hình dung chúng như những "nút điều chỉnh" hướng đi của dòng thông tin.

Các mô hình nhỏ có khoảng vài tỷ parameter (ví dụ Llama-3-8B với 8 tỷ tham số).
Các mô hình lớn hàng đầu như GPT-4 sở hữu hàng nghìn tỷ parameter. Càng nhiều parameter, mô hình càng có khả năng ghi nhớ các mối quan hệ phức tạp và tinh tế giữa các từ ngữ.

2. Dung lượng dữ liệu huấn luyện

Mô hình được huấn luyện bằng cách đọc gần như toàn bộ kho tàng văn bản công cộng của nhân loại trên internet: từ sách báo, tài liệu nghiên cứu, mã nguồn phần mềm cho đến các diễn đàn thảo luận. Tổng dung lượng dữ liệu này lên tới hàng chục nghìn tỷ token.

3. Năng lực điện toán (Compute)

Để điều chỉnh hàng tỷ weight thông qua việc đọc lượng dữ liệu khổng lồ đó, người ta cần hàng ngàn GPU (bộ xử lý đồ họa) hoặc TPU (bộ xử lý chuyên dụng) chạy liên tục trong nhiều tháng.

Layer 3 — Hai bước trưởng thành của mô hình

Mô hình không tự nhiên thông minh ngay từ đầu. Nó phải trải qua hai giai đoạn huấn luyện nghiêm ngặt:

sequenceDiagram
    participant Web as Internet (Dữ liệu thô)
    participant Base as Base Model (Mô hình nền tảng)
    participant Chat as Chat/Instruct Model

    Note over Web, Base: Giai đoạn 1: Pre-training (Tiền huấn luyện)
    Web->>Base: Đọc hàng nghìn tỷ từ để học quy luật ngôn ngữ
    Note over Base: Chỉ biết tự động hoàn thành văn bản thô

    Note over Base, Chat: Giai đoạn 2: Alignment (Căn chỉnh hành vi)
    Base->>Chat: Tinh chỉnh qua hội thoại mẫu & phản hồi của con người
    Note over Chat: Trở thành trợ lý hữu ích và an toàn

Pre-training (Tiền huấn luyện): Đây là bước mô hình "đọc hiệu sách". Mục tiêu duy nhất là học cấu trúc ngôn ngữ và tri thức thô. Sau giai đoạn này, Base Model ra đời. Nếu bạn hỏi: "Thủ đô của Việt Nam là gì?", Base Model có thể viết tiếp thành: "Thủ đô của Thái Lan là gì? Thủ đô của Pháp là gì?" vì nó tưởng bạn đang viết một danh sách câu hỏi.
Alignment (Căn chỉnh hành vi): Ở bước này, con người dạy mô hình cách tương tác. Bằng phương pháp fine-tuning (tinh chỉnh) trên các đoạn hội thoại mẫu (SFT) và chấm điểm hành vi (RLHF/DPO), mô hình học cách trở thành một trợ lý hữu ích, lịch sự, biết trả lời đúng trọng tâm và từ chối các yêu cầu nguy hiểm.

→ Học ngôn ngữ là Pre-training, học cách giao tiếp và ứng xử là Alignment.

Từ một cỗ máy thống kê xác suất thuần túy, việc đẩy quy mô parameter và dữ liệu lên mức cực đại đã làm xuất hiện năng lực suy luận (reasoning) – một hiện tượng thú vị mà chính các nhà khoa học máy tính vẫn đang tiếp tục nghiên cứu để hiểu cặn kẽ.

Full picture

graph TD
    Data[Dữ liệu Internet] -->|Pre-training: Học luật ngôn ngữ| Base[Base Model: Cỗ máy tự động điền câu]
    Base -->|Alignment: Học hành vi và ứng xử| Chat[Chat/Instruct Model: Trợ lý hội thoại]
    
    subgraph Quy_mo ["Quy mô phần cứng & dữ liệu (Chữ Lớn)"]
        Params[Hàng tỷ Parameter]
        Compute[Hàng ngàn GPU]
        Tokens[Hàng ngàn tỷ Token]
    end
    
    Params & Compute & Tokens --> Data

Takeaway

Mô hình ngôn ngữ lớn (LLM) về bản chất là một cỗ máy thống kê dự đoán từ tiếp theo (next-token prediction) được phóng to ở quy mô siêu máy tính. Năng lực suy luận đột phá xuất hiện nhờ việc hội tụ ba trục: số lượng tham số khổng lồ, dữ liệu huấn luyện bao quát và năng lực tính toán cực đại. Cuối cùng, hai bước huấn luyện Pre-training (học ngôn ngữ) và Alignment (học hành vi) quyết định khả năng đóng vai trò trợ lý hội thoại đáng tin cậy của mô hình.

Layer 1 — Bản chất: Trò chơi dự đoán Next-Token

Layer 2 — Chữ "Lớn" nằm ở đâu?

1. Số lượng Parameter (Tham số)

2. Dung lượng dữ liệu huấn luyện

3. Năng lực điện toán (Compute)

Layer 3 — Hai bước trưởng thành của mô hình

Full picture

Takeaway

Related Posts

Zoom-in: Decoding Parameters

Những Thứ Không Bao Giờ Lỗi Thời

Claude Opus 4.8: Anthropic Cải Thiện "Trung Thực", Giảm Giá Fast Mode 3 Lần