Zoom-in: Alignment

Khi hoàn thành giai đoạn pre-training trên hàng nghìn tỷ token thô, một LLM mới chỉ biết làm một việc: đoán token tiếp theo. Nó chưa thể trả lời câu hỏi hay đóng vai trợ lý trò chuyện.

Để biến mô hình thô thành một đối tác hội thoại hữu ích, an toàn và trung thực, chúng ta cần thực hiện quá trình Alignment (căn chỉnh hành vi). Hai công nghệ nổi bật nhất thực hiện việc này là RLHF và DPO.

Hãy phóng to vào quá trình giáo dục hành vi của AI.

Layer 1 — Vấn đề: Sự ngây ngô của Base Model

Một Base Model sau khi tự học sẽ cố gắng tự động hoàn thành văn bản theo cách tự nhiên nhất mà nó đọc được trên mạng.

Nếu bạn hỏi: "Làm thế nào để sửa lỗi tràn bộ nhớ trong NodeJS?"
Base Model có thể viết tiếp thành: "Làm thế nào để sửa lỗi tràn bộ nhớ trong Python? Làm thế nào để sửa lỗi trong Java?" vì nó nghĩ bạn đang tạo một danh sách các câu hỏi lập trình.

Để giải quyết bước đầu, chúng ta thực hiện SFT (Supervised Fine-Tuning - tinh chỉnh có giám sát) bằng cách cho mô hình học các mẫu hội thoại chuẩn dạng Hỏi - Đáp do con người biên soạn.

Tuy nhiên, SFT là chưa đủ. Mô hình vẫn dễ dàng đưa ra các câu trả lời xúc phạm, độc hại hoặc bịa đặt thông tin (ảo giác) vì nó chỉ đang bắt chước văn bản một cách máy móc. Chúng ta cần một cơ chế đánh giá để dạy nó phân biệt tốt - xấu.

Layer 2 — RLHF: Phương pháp học tăng cường truyền thống

RLHF (Reinforcement Learning from Human Feedback - Học tăng cường từ phản hồi của con người) là công nghệ cốt lõi giúp OpenAI tạo ra sự đột phá của ChatGPT. Quy trình RLHF gồm ba bước:

flowchart TD
    A[Mô hình tinh chỉnh giám sát SFT] --> B[Con người chấm điểm và xếp hạng các câu trả lời mẫu]
    B --> C[Huấn luyện một Reward Model]
    C --> D[Dùng Học tăng cường PPO để điều chỉnh Policy dựa trên điểm số từ Reward Model]
    D --> E[Mô hình đã được Alignment]

Thu thập dữ liệu phản hồi (Preference Data): Người thẩm định (con người) được xem nhiều câu trả lời khác nhau của mô hình cho cùng một câu hỏi và xếp hạng xem câu nào tốt hơn, an toàn hơn.
Huấn luyện Reward Model (mô hình phần thưởng): Hệ thống huấn luyện một mạng thần kinh phụ để học cách chấm điểm các câu trả lời giống như đánh giá của con người.
Tối ưu hóa Policy (mô hình hành vi): Sử dụng thuật toán học tăng cường, cụ thể là thuật toán PPO (Proximal Policy Optimization), để điều chỉnh trọng số của mô hình chính sao cho điểm số từ Reward Model đạt mức tối đa.

Điểm yếu của RLHF: Quy trình này cực kỳ phức tạp và không ổn định. Thuật toán PPO rất nhạy cảm với hyperparameters và dễ bị sụp đổ trong lúc huấn luyện. Đồng thời, việc chạy đồng thời mô hình chính, Reward Model và reference model (mô hình tham chiếu) đòi hỏi một lượng tài nguyên phần cứng cực lớn.

Layer 3 — DPO: Bước nhảy vọt tối giản hóa

Năm 2023, các nhà nghiên cứu tại Đại học Stanford đã giới thiệu phương pháp DPO (Direct Preference Optimization - Tối ưu hóa tùy chọn trực tiếp), mở ra một cuộc cách mạng mới trong việc Alignment.

Ý tưởng toán học của DPO vô cùng táo bạo: Tại sao chúng ta phải mất công huấn luyện một Reward Model trung gian rồi dùng học tăng cường phức tạp, trong khi chúng ta có thể tối ưu hóa trực tiếp mô hình chính bằng dữ liệu so sánh của con người?

Các tác giả chứng minh được rằng mục tiêu tối ưu hóa của RLHF có thể được biến đổi toán học thành một loss function (hàm mất mát) phân loại nhị phân đơn giản.

$$\mathcal{L}{DPO}(\pi\theta; \pi_{ref}) = -\mathbb{E}{(x, y_w, y_l)} \left[ \log \sigma \left( \beta \log \frac{\pi\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right]$$

(Trong đó: $y_w$ là câu trả lời tốt được chọn, $y_l$ là câu trả lời tệ bị loại, $\pi_\theta$ là mô hình đang huấn luyện, $\pi_{ref}$ là mô hình tham chiếu gốc)

Công thức này so sánh tỷ lệ xác suất của các câu trả lời tốt và câu trả lời tệ giữa mô hình đang được huấn luyện và mô hình tham chiếu. DPO sẽ tăng xác suất của câu trả lời tốt, giảm xác suất của câu trả lời tệ, đồng thời sử dụng KL-divergence (độ lệch Kullback-Leibler) để giữ cho mô hình không bị lệch quá xa so với trạng thái ổn định ban đầu.

→ DPO biến bài toán học tăng cường phức tạp thành bài toán phân loại nhị phân đơn giản, dễ huấn luyện và ổn định hơn rất nhiều.

Nhờ tính đơn giản, tiết kiệm tài nguyên và hiệu năng vượt trội, DPO đã nhanh chóng thay thế RLHF để trở thành phương pháp Alignment tiêu chuẩn cho hầu hết các mô hình mã nguồn mở hàng đầu hiện nay.

Full picture

graph TD
    Base[Pre-trained Base Model] -->|1. SFT: Supervised Fine-Tuning| SFT[SFT Model]
    
    subgraph Lộ trình Alignment truyền thống: RLHF
        SFT -->|2. Con người chấm điểm| HumanFeedback[Dữ liệu tùy chọn con người]
        HumanFeedback -->|3. Train mạng phụ| RewardModel[Reward Model]
        RewardModel -->|4. Thuật toán PPO phức tạp| Policy[Policy Model đã Alignment]
    end
    
    subgraph Lộ trình tối giản hiện đại: DPO
        SFT -->|Tối ưu trực tiếp bằng Loss Function nhị phân| DPO[DPO Model đã Alignment]
    end

Takeaway

Alignment là bước trưởng thành quyết định để chuyển đổi một LLM từ cỗ máy tự động điền từ thô sơ thành một trợ lý hội thoại hữu ích, an toàn và trung thực. Trong khi phương pháp truyền thống RLHF (Reinforcement Learning from Human Feedback) đòi hỏi quy trình phức tạp gồm 3 bước riêng biệt, nhạy cảm với siêu tham số và ngốn tài nguyên, thì DPO (Direct Preference Optimization) đã cách mạng hóa quy trình này. Bằng cách biến đổi toán học mục tiêu tối ưu hóa thành một hàm loss phân loại nhị phân đơn giản, DPO giúp loại bỏ hoàn toàn mô hình phần thưởng trung gian và thuật toán học tăng cường PPO phức tạp, tạo ra giải pháp huấn luyện ổn định và hiệu quả hơn rất nhiều cho các mô hình ngôn ngữ lớn.

Zoom-in: Alignment

Layer 1 — Vấn đề: Sự ngây ngô của Base Model

Layer 2 — RLHF: Phương pháp học tăng cường truyền thống

Layer 3 — DPO: Bước nhảy vọt tối giản hóa

Full picture

Takeaway

Related Posts

Zoom-in: Rate Limiter

Zoom-in: WebSocket

Zoom-in: Virtual Memory