Series này là lộ trình học LLM cho senior dev muốn hiểu bên dưới, không phải để dùng API nhanh hơn, mà để biết tại sao hệ thống lại hoạt động theo cách đó. Từ linear algebra cho đến distributed training, từ BPE tokenizer cho đến fine-tune Llama trên GPU thuê $20, mỗi bài xây lên một lớp hiểu biết mới trên nền của bài trước.

Đây là hybrid learning path: 70% code thực hành, 30% bài viết giải thích. Blog là output layer, nơi distill lại những gì đã làm được. Nếu bạn chỉ đọc mà không chạy code, bạn sẽ hiểu một nửa. Nếu bạn chỉ chạy code mà không đọc, bạn sẽ hiểu nửa còn lại. Kết hợp mới có bức tranh đầy đủ.

Mỗi bài đứng độc lập nhưng đọc tuần tự sẽ tích lũy đúng thứ tự cần thiết. Không nhảy cóc lên bài fine-tuning nếu chưa hiểu attention, vì lúc đó LoRA sẽ chỉ là một cái tên.

Đối tượng

  • Senior dev 5+ năm, đã dùng ChatGPT / Claude hàng ngày nhưng muốn hiểu thật sự cơ chế bên dưới
  • Backend hoặc fullstack dev muốn pivot sang ML engineering / AI infra
  • Dev đã đọc qua một vài tutorial LLM nhưng vẫn thấy mờ vì thiếu nền toán và thiếu code thực
  • Không cần background ML trước, cần biết Python và linear algebra cơ bản ở mức “biết matrix là gì”

Approach

Blog này không phải course. Không có video, không có quiz, không có certificate. Đây là working notes của một dev đang học: viết lại những gì đã hiểu, kèm code chạy được, kèm pitfalls đã va vào.

Mỗi bài sẽ có:

  • Mental model giải thích khái niệm không dùng jargon thừa
  • Code Python / NumPy / PyTorch có thể chạy ngay trên Colab hoặc local
  • So sánh với thứ quen thuộc: nếu bạn đã biết database, distributed systems, compiler thì LLM sẽ bắt đầu có analog
  • Không skip phần toán quan trọng: giải thích đủ để code không trở thành magic copy-paste

Cấu trúc series

Part 1: Foundation & Mental Model

Mục tiêu: xây nền toán và trực giác trước khi đụng vào code transformer.

#TitleStatus
1LLM hoạt động thế nào: mental model cho devĐã xuất bản
2Linear algebra cho LLM: vector, matrix, dot productĐã xuất bản
3Calculus cho LLM: gradient, chain rule, backprop intuitionĐã xuất bản
4Probability cho LLM: softmax, cross-entropy, perplexityĐã xuất bản
5Neural network tối giản: perceptron, MLP từ zeroĐã xuất bản

Part 2: Tokenization & Embeddings

Mục tiêu: hiểu text biến thành số như thế nào, và tại sao cách biến đó lại quan trọng.

#TitleStatus
6Tokenization: BPE, WordPiece, SentencePieceĐã xuất bản
7Build BPE tokenizer từ đầu (Karpathy minbpe)Đã xuất bản
8Embeddings: word2vec đến contextual đến positional encoding (RoPE)Đã xuất bản

Part 3: Attention & Transformer

Mục tiêu: code được attention từ đầu, hiểu tại sao kiến trúc này thắng.

#TitleStatus
9Attention mechanism: Query / Key / Value intuitionĐã xuất bản
10Self-attention code từ đầu bằng NumPyĐã xuất bản
11Multi-head attention: tại sao chia nhiều headĐã xuất bản
12Transformer block: attention + MLP + layer norm + residualĐã xuất bản
13nanoGPT: 300 dòng PyTorch tái tạo GPT từ đầuĐã xuất bản

Part 4: Training

Mục tiêu: biết model được tạo ra như thế nào, từ forward pass đến distributed training.

#TitleStatus
14Training loop: forward, backward, optimizer, lr scheduleĐã xuất bản
15Scaling laws: Chinchilla, compute-optimal, data efficientĐã xuất bản
16Mixed precision FP16/BF16, gradient checkpointingĐã xuất bản
17Distributed training basics: DP, DDP, FSDP, pipeline parallelĐã xuất bản

Part 5: Fine-tuning & Post-training

Mục tiêu: adapt model có sẵn cho task cụ thể, hiểu alignment pipeline.

#TitleStatus
18LoRA và QLoRA: parameter-efficient fine-tuningĐã xuất bản
19SFT: supervised fine-tuning với instruction datasetĐã xuất bản
20DPO và RLHF: alignment với preference dataĐã xuất bản
21Hands-on fine-tune Llama-3 với dataset tiếng Việt (LoRA, ~$20 GPU)Đã xuất bản

Part 6: Inference & Production

Mục tiêu: deploy model chạy được, hiểu trade-off tốc độ / chất lượng / chi phí.

#TitleStatus
22Quantization: INT8, INT4, GGUF, AWQ và BitNet 1.58-bitĐã xuất bản
23Serving frameworks: vLLM, llama.cpp, Ollama, bitnet.cpp đối chiếuĐã xuất bản
24KV cache và PagedAttention: tăng throughput inferenceĐã xuất bản
25RAG: retrieval-augmented generation từ vector DB tới promptĐã xuất bản
26LLM Agents: ReAct, tool use, planning, multi-step reasoningĐã xuất bản

Part 7: Advanced & Specialized

Mục tiêu: đọc được paper mới, hiểu các hướng đang được nghiên cứu tích cực nhất.

#TitleStatus
27Mixture of Experts (MoE): Mixtral, DeepSeek architectureĐã xuất bản
28Long context: RoPE scaling, YaRN, ALiBi extrapolationĐã xuất bản
29Reasoning models: o1, R1, chain-of-thought trainingĐã xuất bản
30Evaluation: MMLU, GSM8K, HumanEval, custom benchmarkĐã xuất bản

Timeline gợi ý

Series này không có deadline. Nhưng nếu muốn có khung tham chiếu:

Tháng 1-2: Foundation (Parts 1-2) Toán cơ bản, tokenization, embeddings. Không cần GPU. Chạy được trên laptop.

Tháng 3-4: Transformer (Part 3) Milestone đầu tiên quan trọng: hoàn thành bài 13 (nanoGPT). Nếu code được GPT từ 300 dòng PyTorch, bạn đã qua ngưỡng “hiểu LLM là gì”.

Tháng 4-5: Training (Part 4) Hiểu training loop, scaling laws, mixed precision. Bắt đầu cần GPU. Colab free tier đủ dùng cho phần này.

Tháng 5-6: Fine-tuning (Part 5) Milestone thứ hai: bài 21, fine-tune Llama-3-8B với dataset tiếng Việt trên GPU thuê ~$20. Lúc này bạn có model riêng chạy được.

Tháng 6-7: Inference & Production (Part 6) Milestone thứ ba: bài 26, RAG pipeline chạy end-to-end. Đây là điểm bạn có thể xây được application thực tế.

Tháng 7-9: Advanced (Part 7) Đọc paper được, hiểu MoE và reasoning model. Tùy chọn, phần này dành cho ai muốn đi sâu hơn.

Tổng: 6-9 tháng nếu dành 5-10 tiếng mỗi tuần. Nhanh hơn nếu bạn đã có nền toán tốt. Chậm hơn nếu cần ôn lại calculus và linear algebra từ đầu. Không sao, bài 2-4 có để đó.


Cách đọc series

Mỗi bài được viết để đứng được một mình. Bạn có thể link thẳng cho đồng nghiệp mà không cần họ đọc từ đầu. Nhưng đọc tuần tự sẽ tốt hơn vì mỗi bài assume bạn đã có intuition từ bài trước.

Nếu đã có nền ML: nhảy thẳng vào Part 3. Nếu muốn ôn toán: bắt đầu từ Part 1. Nếu chỉ quan tâm production: Part 6 có thể đọc độc lập, nhưng Part 3 sẽ giúp bạn debug tốt hơn nhiều khi có vấn đề.

Không có thứ tự sai. Chỉ có thứ tự hiệu quả hơn.


Bài 1, LLM hoạt động thế nào: mental model cho dev, đã lên sóng. Bắt đầu từ đó.


Cập nhật lần cuối: 2026-05-17 Trạng thái series: 30/30 đã xuất bản