Năm 2024 tôi setup local LLM stack đầu tiên ở homelab. Lựa chọn không nhiều: Llama 3 70B nếu có GPU đủ, Mistral 7B nếu chỉ có CPU, Phi-2 cho thử nghiệm. Mọi thứ xoay quanh dense model, license lúc OK lúc không, multimodal vẫn hiếm. Phải thoả hiệp khá nhiều.
Giữa 2026, bức tranh khác hẳn. OpenAI thả model open weight đầu tiên kể từ GPT-2. Alibaba ship Qwen 3 với cả MoE lẫn dense, lên tới 1T parameter. DeepSeek R1 và distill của nó đưa reasoning model nhỏ về laptop. Google ra Gemma 3 multimodal 27B fit gọn trong một card 24GB. Meta nhảy thẳng vào MoE với Llama 4 Scout 10M context. Mistral vẫn giữ ngọn cờ EU với Apache 2.0.
Nếu bạn dự định tự host LLM trong 2026, bộ model bạn thử năm ngoái đã lỗi thời. Bài này gói gọn cái đáng tự host bây giờ, kiến trúc, license, kích thước, ngưỡng phần cứng cụ thể, và một số quan điểm cá nhân sau hơn một năm chạy stack thật. Đây là bài mở màn series Local LLM stack 2026 refresh. Series sẽ đi end-to-end: chọn model, runtime, quantization, agent loop, fine-tune, multimodal pipeline.
Trước khi đi tiếp, ba lưu ý ngắn. Đây là snapshot tháng 5, 2026, một số con số có thể đổi sau patch release tiếp theo. Phần nhận xét chất lượng đa số là subjective từ workload thực tế của tôi (coding, viết, VN content, agent loop), không phải benchmark exhaustive. Recommendation hardware bám theo giá commodity 2026: RTX 4090 và 3090 đại diện tier 24GB, M3 Max và M4 Max đại diện Mac unified memory.
Vì sao 2026 khác hẳn 2024
Ba thay đổi lớn so với 2024 và đầu 2025.
MoE đã trở thành mainstream cho open weight. Trước đây chủ yếu có Mixtral 8x7B và Mixtral 8x22B. Năm 2026, Qwen 3, Llama 4, DeepSeek R1, gpt-oss đều có biến thể MoE. Ưu điểm là total parameter lớn nhưng active parameter nhỏ, inference rẻ hơn dense cùng total size. Nhược điểm là cần đủ RAM hoặc VRAM cho toàn bộ weights, kể cả phần không active. Tôi sẽ quay lại điểm này nhiều lần vì nó dễ đánh lừa khi pick model.
Reasoning model open weight đã khả thi. DeepSeek R1 thay đổi cuộc chơi vào tháng 1, 2025: lần đầu có một open model thinking-style chạy local, kèm distill xuống Qwen và Llama base. Sau đó Qwen3-Thinking, gpt-oss reasoning variant, và nhiều model khác đi theo. Self-host reasoning không còn là tưởng tượng.
Multimodal đã chuyển về local. Gemma 3 và Qwen3-VL đều có biến thể nhỏ vision-language. OCR, image captioning, document QA local không còn cần API. Với 24GB VRAM bạn chạy được vision model production-grade.
Cộng thêm chuyện license sạch hơn. Năm 2024, Llama 3 community license vẫn chặn ai trên 700M MAU. Năm 2026, gpt-oss và toàn bộ Qwen 3 open weight đều Apache 2.0. Khác biệt rất lớn nếu bạn ở doanh nghiệp có legal team kỹ tính: Apache 2.0 cho phép modify, redistribute, sublicense, commercial use không hạn chế. Llama Community License chèn thêm clause MAU và yêu cầu đính tên “Llama” vào derivative.
Một chuyển dịch không nói ra nhưng quan trọng nữa: giá hardware giảm và tooling chín hơn. RTX 4090 secondhand đã hạ giá đáng kể, M4 Max ship unified memory 64-128GB. Bên runtime, vLLM 0.6+, Ollama 0.4+, llama.cpp đều support hầu hết kiến trúc MoE và quantization mới. Trước đây pull model về phải hack tokenizer; giờ ollama pull <model> xong là chạy.
Lý do tự host thì không đổi: data sensitivity, cost ổn định, offline workflow, custom fine-tune. Bài này không bàn lại “nên hay không nên tự host”. Nếu bạn đã quyết tự host, bài này giúp chọn model.
gpt-oss: OpenAI quay lại open weight
Tháng 8, 2025, OpenAI release gpt-oss-20b và gpt-oss-120b. Hai model open weight đầu tiên kể từ GPT-2, license Apache 2.0. Đây là sự kiện đáng chú ý nhất 2025 vì OpenAI là công ty closed-weight đầu ngành.
gpt-oss-20b có 20B parameter (MoE, khoảng 3.6B active), thiết kế để chạy trên thiết bị 16GB RAM, performance tương đương o3-mini trên benchmark phổ biến. gpt-oss-120b có 120B parameter (MoE, khoảng 5.1B active), chạy được trên một GPU 80GB, gần parity với o4-mini ở reasoning task.
Cả hai dùng định dạng MXFP4 (4-bit MX) cho weights, giúp model 120B fit thoải mái trong 80GB VRAM. Đây là điểm thú vị: OpenAI ship sẵn quantization trong format gốc thay vì để bạn quantize sau. Tool support cho MXFP4 đã có ở vLLM, llama.cpp, Ollama, LM Studio, Hugging Face Transformers.
Kiến trúc: cả hai là reasoning model có “thinking” mode tương tự o-series. Output có phần chain-of-thought rồi mới đến answer. Tool calling, structured output, function calling đều native.
# Pull gpt-oss-20b qua Ollama
ollama pull gpt-oss:20b
ollama run gpt-oss:20b "Giải thích MoE bằng tiếng Việt, dưới 100 từ"
Tôi đã test gpt-oss-20b qua Ollama trên Mac. Inference khoảng 30 tok/s trên M3 Max. Quality cho coding task gần Claude 3.5 Sonnet (subjective), tốt hơn Llama 3 70B nhiều dù parameter thấp hơn.
Một điểm phải lưu ý: gpt-oss có safety post-training khá đậm, refuse nhiều task mà các open model khác happily làm. Nếu workload của bạn cần model “uncensored” cho legitimate use case (security research, content moderation training, fiction writing), Qwen 3 hoặc DeepSeek là lựa chọn ngon hơn.
Profile phù hợp: Mac 16GB (M2/M3/M4) muốn reasoning model local pull gpt-oss-20b. GPU 80GB (H100, A100 80GB) chạy gpt-oss-120b để có chi phí 0 token với chất lượng gần o4-mini. Team đang dùng GPT-4o API muốn migration path local thì gpt-oss là benchmark tự nhiên vì cùng training philosophy.
Qwen 3: lineup phủ rộng nhất
Alibaba ship Qwen 3 lần đầu tháng 4, 2025, update Qwen3-2507 giữa năm với hai variant Instruct và Thinking. Đến cuối 2025 và đầu 2026, family này lớn nhanh đến mức tài liệu Hugging Face đọc không kịp.
Base lineup (Apache 2.0) gồm Qwen3-4B dense cho edge và mobile, Qwen3-30B-A3B MoE 30B với 3B active là sweet spot cho 24GB GPU, Qwen3-235B-A22B MoE cần multi-GPU hoặc 80GB+, và Qwen3-Max-Preview frontier 1T+ parameter hiện chỉ qua API.
Coder line tách riêng: Qwen3-Coder-30B-A3B-Instruct code-focused MoE, Qwen3-Coder-480B-A35B-Instruct lớn nhất với performance state-of-the-art trên agentic coding, và Qwen3-Coder-Next build trên Qwen3-Next-80B-A3B với hybrid attention.
Vision-language (Qwen3-VL, tháng 10, 2025): Qwen3-VL-2B, 4B, 8B, 32B (Instruct và Thinking variants) là dense vision model, cộng thêm Qwen3-VL-30B-A3B và Qwen3-VL-235B-A22B MoE multimodal.
Điểm tôi thích nhất ở Qwen 3 là license đồng nhất: tất cả open-weight đều Apache 2.0, không phải đọc license riêng cho từng size như Llama. Cộng thêm multilingual mạnh, train trên 119 ngôn ngữ và phương ngữ bao gồm tiếng Việt. Quality trên VN prompt tốt nhất trong số open model tôi đã thử qua một năm. Nếu workload của bạn nặng VN content (viết blog, RAG tài liệu nội bộ tiếng Việt, agent assistant đáp ứng người dùng Việt), pick Qwen 3 ngay từ đầu thay vì wrap Llama bằng prompt VN-only.
Quan sát thực tế: với cùng VRAM budget, MoE A3B của Qwen 3 cho throughput cao hơn dense 7-8B vì chỉ 3B active. Tradeoff là cần đủ memory cho 30B total weights. Trên RTX 4090 24GB, Qwen3-30B-A3B Q4 chạy 60-80 tok/s; dense Qwen3-4B chạy 100+ tok/s nhưng quality thấp hơn rõ.
DeepSeek R1 và distill series
Tháng 1, 2025, DeepSeek release R1, reasoning model open weight với chain-of-thought training qua reinforcement learning. R1 full là 671B MoE (37B active), không phải ai cũng chạy được local. Phần thú vị thực ra là distill series.
DeepSeek dùng 800k sample R1-generated để fine-tune các base model nhỏ hơn: DeepSeek-R1-Distill-Qwen-1.5B, 7B, 14B, 32B (base Qwen2.5), DeepSeek-R1-Distill-Llama-8B, 70B (base Llama-3.1 và 3.3). Distill chỉ dùng SFT, không có RL stage. Paper note rằng RL có thể boost thêm, nhưng họ chọn release SFT-only để cộng đồng tự build trên.
Một số con số đáng chú ý: Distill-Qwen-7B đạt 55.5% trên AIME 2024, vượt QwQ-32B-Preview là model lớn hơn nhiều. Distill-Qwen-14B vượt QwQ-32B-Preview với chi phí hardware thấp hơn. Distill-Qwen-32B và Distill-Llama-70B set record cho dense open model trên reasoning benchmark thời điểm release.
Implication thực dụng: bạn có thể chạy một reasoning model 7B trên consumer laptop với chất lượng vượt model 32B-class của năm trước. License thừa kế từ base model. Distill-Qwen Apache 2.0 (theo Qwen2.5), Distill-Llama Llama 3 Community License (vẫn có giới hạn 700M MAU).
ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b "Có 3 hộp, một hộp toàn táo, một hộp toàn cam, một hộp lẫn. Mỗi hộp dán nhãn sai. Bốc 1 quả từ 1 hộp để biết hộp nào chứa gì. Bốc hộp nào?"
Output sẽ có khối <think>...</think> trước answer. Đây là chain-of-thought reasoning trace.
Một cảnh báo phải biết trước khi wire vào agent: reasoning model tốn nhiều token hơn dense thông thường vì phần thinking đếm vào output. Một query “5 + 3 bằng bao nhiêu” với DeepSeek-R1 có thể output 200-500 token thinking trước khi đưa ra “8”. Với task khó hơn (math olympiad, code debug), thinking chunk có thể tới vài nghìn token. Trên homelab Xeon E5 chạy 2-4 tok/s, một query reasoning đơn giản có thể mất 1-2 phút chỉ vì model còn đang “thinking”.
Cá nhân tôi chọn distill thay vì full R1 trong gần như mọi case. Nếu bạn có ít hơn 200GB VRAM, full R1 không fit. Nếu workload chỉ cần reasoning mid-tier, 14B distill đủ cho code review, math olympiad cấp đại học, debug. Nếu cần inference nhanh, 7B distill chạy 30-50 tok/s trên consumer GPU; full R1 khoảng 5-10 tok/s ngay cả trên 8x H100.
Gemma 3: multimodal compact mà ai cũng quên
Google ship Gemma 3 tháng 3, 2025. Family này khác Gemma 1 và 2 ở ba điểm: multimodal native, context dài, và phủ size rộng.
Sizes trải từ 270M ultra-small cho edge, 1B text-only, 4B/12B/27B multimodal. Bản 4B, 12B, 27B có vision encoder dựa trên SigLIP, support image input native. Bạn paste ảnh vào prompt, model trả lời như Claude hoặc GPT-4o. Context 32K cho 1B, 128K cho các size lớn hơn. Multilingual hơn 140 ngôn ngữ bao gồm tiếng Việt, quality VN ở 27B comparable với Qwen 3.
Training scale lớn so với open model cùng size: 27B train trên 14T token, 12B trên 12T, 4B trên 4T, 1B trên 2T.
License là Gemma license (custom, gần Apache nhưng có acceptable use policy của Google). Không phải Apache thuần nhưng cho phép commercial use không giới hạn về MAU như Llama. Đọc license trước khi production, đặc biệt nếu deploy ở vertical regulated (medical, finance).
ollama pull gemma3:12b
ollama run gemma3:12b "Mô tả ảnh này" < /path/to/image.png
Gemma 3 thường bị bỏ qua trong các so sánh public vì tên không “kêu” bằng gpt-oss hay DeepSeek. Cá nhân tôi thấy nếu workflow của bạn cần multimodal, đây là default tốt nhất 2026: 4B fit trong 8GB GPU đủ cho OCR và image QA cơ bản, 12B vừa khít với 16GB, 27B trên RTX 4090 cho production grade vision với context 128K đủ rộng cho code review nhiều file.
Một quirk: vision encoder dùng SigLIP nên image input cần preprocessing đặc thù (resize đúng aspect ratio, normalize pixel). Ollama 0.4+ handle phần này tự động. Nếu bạn dùng llama.cpp hoặc vLLM raw, đọc model card kỹ trước khi wire pipeline, đừng để model decode ảnh sai rồi tưởng quality kém.
Llama 4: Meta nhảy vào MoE muộn
Meta release Llama 4 Scout và Llama 4 Maverick tháng 4, 2025. Lần đầu Llama dùng MoE. Behemoth (variant lớn nhất, ~2T parameter) vẫn đang training tại thời điểm announce và chưa release open weight (snapshot 2026-05).
Scout có 17B active parameter, 16 expert, 109B total, context window 10M token. Maverick có 17B active, 128 expert, 400B total, multimodal native, vượt GPT-4o và Gemini 2.0 Flash trên một số benchmark. Behemoth ~2T total, ~288B active, 16 expert, frontier model đang training.
Cả Scout và Maverick natively multimodal, vision encoder tích hợp từ pre-training (không phải bolt-on sau). Đây là khác biệt so với cách Llama 3 vision được build.
10M context của Scout đáng chú ý. Trên paper, bạn có thể đẩy cả codebase 100k dòng vào một prompt. Thực tế retrieval quality ở extreme context vẫn cần benchmark thêm, nhưng headroom rất lớn.
License là Llama 4 Community License (custom), cho phép commercial use cho ai có dưới 700M MAU tính từ ngày announce. Trên ngưỡng đó phải xin separate license. Llama 4 cũng yêu cầu accept terms trên Hugging Face hoặc Meta portal trước khi pull weights, mất 5-10 phút.
Phải nói thật: vị trí của Llama 4 trong landscape 2026 hơi awkward. Nếu bạn cần long-context cực dài, Scout 10M là unique trong open model. Nhưng cho hầu hết workload thông thường, Qwen3-235B-A22B chất lượng tương đương hoặc tốt hơn với license Apache 2.0 thuần. Llama 4 hiện relevant nhất ở hai trường hợp: đã đầu tư ecosystem Llama (fine-tune dataset, tooling) hoặc cần multimodal cao cấp ở scale lớn. Cho đa số dev đang đọc bài này, Qwen 3 hoặc gpt-oss là lựa chọn rõ ràng hơn.
Một cảnh báo size: Llama 4 có total weights lớn (109B Scout, 400B Maverick). Dù active parameter nhỏ, bạn vẫn cần đủ memory cho toàn bộ weights. Scout Q4 cần khoảng 65-70GB. Single 80GB GPU OK; 24GB GPU thì không khả thi.
Mistral và Mixtral 2026
Mistral AI giữ lineup nhỏ hơn so với Alibaba hoặc Meta, nhưng vẫn relevant.
Mixtral 8x7B SMoE classic (47B total, 13B active) Apache 2.0 vẫn workhorse cho ai muốn MoE proven. Mixtral 8x22B (141B total, 39B active) Apache 2.0 context 64K, function calling native; theo Mistral docs sẽ retire tháng 3, 2025, verify lại nếu plan production. Mistral Small 3 / 3.2 dense ~22B Apache 2.0, replacement cho 8x22B ở API tier, balance quality và latency tốt.
License của Mistral từng có lúc đổi (2024 có model dưới Mistral Research License non-commercial). Năm 2026, Mistral xác nhận lại commitment với Apache 2.0 cho open weight tier. Frontier model (Mistral Large 2, Mistral Medium 3) vẫn closed.
Vị thế của Mistral trong 2026 khác 2024. Khi đó Mixtral 8x7B là default cho MoE local. Bây giờ Qwen 3 và gpt-oss cover space đó tốt hơn. Mistral vẫn relevant nhưng không còn là “must try”. Tôi vẫn dùng Mixtral 8x7B cho một số batch task background ở homelab vì nó stable, được test kỹ trong runtime ecosystem, và license sạch. Nhưng cho workload mới, gần như luôn pick Qwen 3 hoặc gpt-oss thay vì Mistral.
Hai case Mistral vẫn ăn được: bạn đã có pipeline build trên Mixtral 8x7B và switching cost cao, hoặc bạn cần EU-based vendor cho compliance reason. Còn nếu greenfield, lý do duy nhất pick Mistral là function calling thuần native ở Mixtral 8x22B, nhưng Qwen 3 cũng làm được nên cuối cùng vẫn về Qwen.
Bảng tổng hợp và cách chọn theo hardware
VRAM estimate ở Q4 quantization, batch size 1, context 8K. Production load cao cần thêm headroom.
Model Total Active VRAM Q4 License Multimodal
gpt-oss-20b 20B ~3.6B ~12GB Apache 2.0 No
gpt-oss-120b 120B ~5.1B ~65GB Apache 2.0 No
Qwen3-4B 4B 4B ~3GB Apache 2.0 No
Qwen3-30B-A3B 30B 3B ~18GB Apache 2.0 No
Qwen3-235B-A22B 235B 22B ~140GB Apache 2.0 No
Qwen3-Coder-30B-A3B 30B 3B ~18GB Apache 2.0 No
Qwen3-VL-8B 8B 8B ~6GB Apache 2.0 Yes
Qwen3-VL-32B 32B 32B ~20GB Apache 2.0 Yes
DeepSeek-R1 (full) 671B 37B ~400GB MIT-like No
DeepSeek-R1-Distill-Qwen-7B 7B 7B ~5GB Apache 2.0 No
DeepSeek-R1-Distill-Qwen-14B 14B 14B ~9GB Apache 2.0 No
DeepSeek-R1-Distill-Qwen-32B 32B 32B ~20GB Apache 2.0 No
DeepSeek-R1-Distill-Llama-70B 70B 70B ~42GB Llama 3 Community No
Gemma 3 4B 4B 4B ~3GB Gemma license Yes
Gemma 3 12B 12B 12B ~8GB Gemma license Yes
Gemma 3 27B 27B 27B ~17GB Gemma license Yes
Llama 4 Scout 109B 17B ~65GB Llama 4 Community Yes
Llama 4 Maverick 400B 17B ~240GB Llama 4 Community Yes
Mixtral 8x7B 47B 13B ~28GB Apache 2.0 No
Mixtral 8x22B 141B 39B ~85GB Apache 2.0 No
Mistral Small 3 ~22B 22B ~14GB Apache 2.0 No
Giờ đi qua hardware phổ biến.
Trên Mac M-series 16GB RAM (M2 Air, M3 Pro base), default tôi pick là gpt-oss-20b qua Ollama. Reasoning quality cao, fit unified memory, 25-35 tok/s. Backup là DeepSeek-R1-Distill-Qwen-7B nếu cần reasoning nhanh hơn, hoặc Qwen3-4B cho VN content tốc độ cao. Đừng cố push model 30B+ ở tier này; unified memory chia với OS và app khác, bạn sẽ swap nặng.
Mac M-series 32-64GB (M3 Max, M4 Pro/Max) là sweet spot cho dev cá nhân. Qwen3-30B-A3B (Coder hoặc Instruct tùy use case) là default; 3B active nên prompt processing nhanh, output 20-30 tok/s trên M3 Max. Reasoning thì pick DeepSeek-R1-Distill-Qwen-32B hoặc gpt-oss-20b với extended context. Multimodal pick Gemma 3 12B hoặc Qwen3-VL-8B. Tránh gpt-oss-120b và Llama 4 trên Mac: cần GPU dedicated, unified memory không tối ưu cho MoE size này.
GPU 24GB consumer (RTX 4090, 3090, A5000) cho text dùng Qwen3-30B-A3B Q4: active 3B trên VRAM dedicated nên throughput rất tốt, 50-80 tok/s. Reasoning chọn DeepSeek-R1-Distill-Qwen-32B Q4 hoặc gpt-oss-20b full precision. Coding agent pick Qwen3-Coder-30B-A3B Q4. Multimodal Gemma 3 27B Q4 hoặc Qwen3-VL-32B. Đừng cố gpt-oss-120b (cần 80GB) hoặc Llama 4 (cần 65GB+) ở tier này.
GPU 80GB (H100, A100 80GB) là playground production. gpt-oss-120b cho chất lượng gần o4-mini với throughput cao qua vLLM. Long-context thì Llama 4 Scout Q4 (10M context). Frontier reasoning local thì DeepSeek-R1-Distill-Llama-70B full precision. Coding pick Qwen3-Coder-480B (cần quantization nặng) hoặc 30B variant với throughput cao.
Profile khó nhất là homelab CPU-only. Trên Xeon E5 + 64GB RAM, không GPU dedicated của tôi, DeepSeek-R1-Distill-Qwen-7B Q4 qua llama.cpp là default. Reasoning quality cao, fit trong 8-16GB RAM, không thrash. Alternative là Gemma 3 4B (text-only branch); throughput tốt hơn 7B, vẫn dùng được cho task đơn giản. Cụ thể số đo của tôi: Qwen3-4B chạy được 4-5 tok/s, DeepSeek-R1-Distill-Qwen-7B chạy 2-3 tok/s. Đủ cho batch task qua đêm, không đủ cho interactive chat. Bất kỳ model 30B+ ở tier này đều không khả dụng, kể cả với 64GB RAM.
Một workaround tôi đã thử trên homelab: GPU consumer cũ (Quadro K620, GTX 1060, GTX 1660) vẫn offload được partial layers qua llama.cpp --gpu-layers. Throughput tăng đáng kể nhưng đừng kỳ vọng đụng được consumer 3090/4090. Quadro K620 với llama.cpp + Qwen3-4B Q4 ở homelab tôi cho khoảng 8-10 tok/s, vẫn chậm nhưng dùng được cho assistant local nhẹ nhàng. Lưu ý: K620 driver tôi không build được sạch trên kernel 6.8, cuối cùng phải fall back CPU-only path, sẽ kể chi tiết ở bài 2.
Production multi-GPU (2x A100, 4x L40S) là tier khác hẳn. Qwen3-235B-A22B với tensor parallelism cho quality gần frontier closed model. Multimodal pick Llama 4 Maverick (cần ~240GB VRAM aggregate). Reasoning at scale pick DeepSeek-R1 full 671B nếu có 8x H100. vLLM hoặc TensorRT-LLM cho production serving, Ollama không tối ưu cho multi-GPU.
Vài rule of thumb sau một năm chạy local stack
Ưu tiên MoE khi VRAM đủ cho total weights. MoE active parameter nhỏ nên latency thấp, throughput cao. Nhưng nếu VRAM không đủ total weights, bạn phải offload qua RAM, performance drop thẳng đứng. Check total size trước khi pull, đừng nhìn mỗi active parameter rồi tưởng fit.
Q4_K_M là sweet spot quantization cho hầu hết model. Q5 và Q6 chất lượng cao hơn marginal nhưng VRAM tăng 25-50%. Q3 và Q2 chất lượng tụt rõ rệt, chỉ dùng khi không còn cách khác. Đừng quantize Q2 chỉ vì muốn fit model lớn vào card nhỏ; pick model nhỏ hơn ở Q4 gần như luôn cho kết quả tốt hơn.
Đọc model card trước khi deploy. Mỗi family có quirk riêng: gpt-oss có MXFP4 format, Qwen3-VL cần image preprocessing đặc thù, Llama 4 yêu cầu accept terms. Đọc 10 phút tiết kiệm vài giờ debug sau. Tôi đã từng đốt cả buổi tối debug Gemma 3 vision tưởng quality kém, hoá ra do preprocessing sai aspect ratio.
Benchmark trên workload thật của bạn. Public benchmark như AIME, HumanEval, MMLU không cover use case của mọi người. Build một mini eval set 20-50 task đại diện workload thật, chạy qua các model candidate, pick theo kết quả thực tế chứ không phải leaderboard. Quan điểm cá nhân: leaderboard giúp shortlist, không giúp decide. Với VN content, Qwen 3 luôn vượt Llama 3 trong eval của tôi dù leaderboard English cho con số ngang nhau.
License matter ngay cả với hobby project. Nếu blog hoặc side project có khả năng grow thành commercial, pick model với license sạch ngay từ đầu sẽ tránh refactor sau. Apache 2.0 và Gemma license là default an toàn; Llama 4 Community OK với điều kiện bạn xa ngưỡng 700M MAU.
Lời kết
State của open-weight LLM trong 2026 đã rất khác 2024. Bạn có lựa chọn cho mọi profile hardware, license đa số là Apache 2.0 hoặc tương đương permissive, multimodal đã local-ready, reasoning model open weight đã production-ready.
Nếu bạn pin một model từ 2024 hoặc 2025 và chưa refresh, đây là thời điểm tốt. Lựa chọn hôm nay vừa rẻ vừa mạnh hơn nhiều, và hai năm tới chắc chắn sẽ còn đổi nữa.
Bài tiếp theo của series sẽ vào benchmark hardware cụ thể: Apple Silicon vs CUDA vs CPU-only, dữ liệu thật từ homelab tôi đang chạy, kèm cost per token tự host vs cloud.
Tham khảo
- Ollama model library: registry với filter capability tools, vision, embedding.
- llama.cpp GGUF format: chi tiết các tier quantization Q2-Q8.
- DeepSeek R1 paper: methodology RL training và distill series.
- Qwen 3 technical report: kiến trúc MoE và multilingual coverage.