Local AI: Tại Sao Bạn Nên Chạy AI Trên Máy Của Riêng Mình
Mọi Request AI Của Bạn Đang Qua Server Ai Đó
Mỗi lần bạn dùng ChatGPT, Claude, hay Copilot — prompt của bạn gửi sang server của công ty đó. Code bạn viết, câu hỏi bạn hỏi, dữ liệu bạn paste vào — tất cả đều được xử lý ở đâu đó trên cloud.
Với hầu hết use case, điều này OK. Nhưng nếu bạn đang:
- Viết code cho project NDA hoặc công ty có policy nghiêm ngặt
- Xử lý dữ liệu nhạy cảm (y tế, tài chính, legal)
- Làm việc ở nơi internet kém hoặc không ổn định
- Muốn thử nghiệm model mà không tốn tiền API
Thì local AI là câu trả lời.
Và trong 2026, nó đã thực sự khả thi.
"Local AI Needs To Be The Norm"
Đó là tiêu đề bài post đang trending trên Hacker News với hơn 772 điểm. Chủ đề này resonate vì một lý do đơn giản: quá nhiều developer đang gửi code và data riêng tư lên cloud mà không nghĩ hai lần.
Bài post chỉ ra rằng:
- Các công ty lớn (Apple, Samsung, nhiều ngân hàng) đã cấm nhân viên dùng AI cloud cho code nội bộ
- Open-source models giờ đã đủ tốt cho nhiều tác vụ hàng ngày
- Phần cứng hiện tại (Mac M-series, GPU NVIDIA) đủ mạnh để chạy model 7B-70B parameters
Đây không phải là anti-cloud hay anti-AI. Đây là về chọn đúng tool cho đúng việc.
Ollama: Cài Trong 30 Giây
Ollama là cách dễ nhất để chạy LLM local. Một lệnh cài đặt, một lệnh chạy model.
# Cài Ollama (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Chạy model đầu tiên
ollama run gemma3
# Hoặc model khác
ollama run llama3.3
ollama run deepseek-v3
ollama run qwen3
Ollama hiện hỗ trợ hàng trăm model từ library của họ, bao gồm:
- Gemma 3 (Google) — model open-source tốt cho general tasks
- Llama 3.3 (Meta) — mạnh về reasoning và coding
- DeepSeek V3 — efficient, đặc biệt tốt cho code
- Qwen 3 (Alibaba) — multilingual, tiếng Việt khá ổn
Sau khi chạy, Ollama expose REST API tại localhost:11434. Bạn có thể tích hợp vào bất kỳ tool nào.
Những Gì Bạn Thực Sự Làm Được Với Local AI
1. Code Completion Không Cần Internet
Dùng Continue hoặc Tabby với Ollama backend. Code completion chạy hoàn toàn trên máy bạn.
// continue.config.json
{
"models": [{
"title": "Local DeepSeek",
"provider": "ollama",
"model": "deepseek-coder-v2:16b"
}]
}
2. Chat Với Codebase Của Bạn
Dùng Open WebUI kết hợp Ollama để tạo ChatGPT-like interface nhưng chạy 100% local.
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
3. Text Processing Hàng Loạt
Summarize documents, extract data, translate — không tốn API cost.
# Tóm tắt file text
cat report.txt | ollama run gemma3 "Tóm tắt nội dung chính của văn bản này"
# Translate
echo "Hello world" | ollama run qwen3 "Dịch sang tiếng Việt"
4. CI/CD Integration
Chạy AI review trong pipeline mà không phụ thuộc vào external API.
# GitHub Actions example
- name: AI Code Review
run: |
git diff HEAD~1 | ollama run deepseek-coder \
"Review code changes, find potential bugs"
Hardware: Bạn Cần Gì?
| Model Size | RAM Tối Thiểu | Ví Dụ | Tốc Độ (M4 Pro) |
|---|---|---|---|
| 1-3B | 4GB | Qwen3 1.7B, Gemma 1B | ~80 tokens/s |
| 7-8B | 8GB | Gemma 3, Llama 3.3 8B | ~40 tokens/s |
| 13-14B | 16GB | DeepSeek Coder 16B | ~25 tokens/s |
| 32-34B | 32GB | Qwen3 32B | ~12 tokens/s |
| 70B+ | 64GB+ | Llama 3.3 70B | ~5 tokens/s |
Mac M-series chạy tốt nhất nhờ unified memory. MacBook Pro M4 với 24GB RAM chạy model 13B mượt mà.
NVIDIA GPU cũng OK, nhưng cần VRAM đủ. RTX 4060 (8GB VRAM) chạy được model 7B.
Không có GPU? Model 1-3B vẫn chạy được trên CPU, tốc độ chấp nhận được cho text processing.
Local vs Cloud: Khi Nào Dùng Gì?
Dùng Local khi:
- Dữ liệu nhạy cảm (code nội bộ, PII, NDA)
- Cần offline access
- Chạy batch processing lớn (tránh API cost)
- Muốn customize model (fine-tune, RAG)
Dùng Cloud khi:
- Cần model lớn nhất, tốt nhất (GPT-4o, Claude Opus)
- Task phức tạp cần reasoning sâu
- Context window lớn (>128K tokens)
- Cần multimodal (vision, audio)
Thực tế: hầu hết developer nên dùng cả hai. Local cho daily tasks, cloud cho hard problems.
Bắt Đầu Hôm Nay
# 1. Cài Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 2. Pull model phù hợp (8B là điểm khởi đầu tốt)
ollama pull gemma3
# 3. Test ngay
ollama run gemma3 "Viết function TypeScript validate email"
# 4. (Optional) Cài Open WebUI cho giao diện đẹp
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
ghcr.io/open-webui/open-webui:main
Lời Kết
Local AI không thay thế cloud AI. Nhưng nó cho bạn thêm một option — option mà 2 năm trước chỉ dành cho người có server GPU khủng.
Hôm nay, MacBook Pro của bạn đã đủ mạnh. Ollama đã đủ dễ. Open-source models đã đủ tốt.
Câu hỏi không phải "có nên thử local AI" mà là "tại sao bạn chưa thử?".
Tham khảo: