Series này nối tiếp LLM từ zero: khi bạn đã hiểu attention, fine-tuning, inference, câu hỏi tiếp theo là “ghép LLM với thế giới ngoài thì sao”. Đó là agent: LLM cộng với tools, memory, và một control loop quyết định bước tiếp theo.
Agent là một abstraction lỏng. Mỗi framework gọi khác nhau, mỗi paper định nghĩa hơi khác. Series này không cố hợp nhất các định nghĩa. Mỗi bài tập trung một concept cụ thể, code chạy được, và một pitfall mà tôi (hoặc người khác) đã va vào trong production.
Cách tiếp cận: build from scratch trước, framework sau. Bài 5 sẽ có một agent ~100 dòng Python chỉ dùng Anthropic SDK. Đến bài 19, mới so sánh LangGraph, CrewAI, AutoGen. Lý do: framework che mất control loop, mà control loop là phần dễ sai nhất khi agent vào production.
Đối tượng
- Senior dev 3+ năm, đã đọc qua LLM từ zero hoặc đã hiểu attention/tokenization/inference ở mức “không còn hỏi LLM là gì”
- Backend / fullstack dev đang build AI feature trong sản phẩm, muốn vượt qua mức “gọi API trong một vòng for loop”
- Engineer đã thử agent một lần thấy nó loop vô hạn / hallucinate / đốt $200 trong 1 giờ, muốn hiểu tại sao
- Không yêu cầu background ML chuyên sâu. Cần Python ổn, biết async, biết JSON schema
Approach
Không phải course. Không có quiz, không có certificate. Đây là working notes của một dev đang build agent thật: viết lại những gì đã hiểu, kèm code chạy được, kèm fail mode đã gặp.
Mỗi bài có:
- Mental model trước, abstraction sau, code sau cùng
- Code Python với Anthropic SDK (Claude Sonnet 4.6) hoặc OpenAI SDK khi phù hợp
- Pitfall thật: incident, fail mode, cost surprise, security gotcha
- So sánh với phần quen thuộc: nếu bạn biết queue / state machine / RPC thì agent có analog rõ
- Cross-link sang LLM series khi đụng attention, tokenization, eval
Cấu trúc series
Part 1: Foundation
Mục tiêu: hiểu agent là gì, build được một agent tối giản từ đầu.
| # | Title | Status |
|---|---|---|
| 1 | Agent là gì: LLM cộng tools cộng memory cộng loop | Đã xuất bản |
| 2 | Tool use cơ bản: function calling, JSON schema, error handling | Đã xuất bản |
| 3 | Control loop: ReAct, agentic loop, điều kiện dừng | Đã xuất bản |
| 4 | Memory cho agent: context window, scratchpad, summarization | Đã xuất bản |
| 5 | Build agent từ đầu: 100 dòng Python với Anthropic SDK | Đã xuất bản |
Part 2: Planning và Reasoning
Mục tiêu: agent biết “nghĩ” trước khi hành động, không chỉ phản xạ một bước.
| # | Title | Status |
|---|---|---|
| 6 | ReAct: thought, action, observation cycle | Đã xuất bản |
| 7 | Plan-and-Execute: tách planning khỏi execution | Đã xuất bản |
| 8 | Tree of Thoughts và tree search cho agent | Đã xuất bản |
| 9 | Self-reflection: critic, verifier, retry pattern | Đã xuất bản |
| 10 | Chain-of-Thought so với structured reasoning | Đã xuất bản |
Part 3: Tools và Environment
Mục tiêu: agent tương tác được với thế giới thật, an toàn.
| # | Title | Status |
|---|---|---|
| 11 | Tool design: schema, validation, idempotency | Đã xuất bản |
| 12 | Code execution sandbox: subprocess, Docker, e2b | Đã xuất bản |
| 13 | Browser automation cho agent: Playwright và computer use | Đã xuất bản |
| 14 | RAG cho agents: retrieval trong vòng lặp, không phải QA | Đã xuất bản |
| 15 | MCP (Model Context Protocol): chuẩn hoá tool layer | Đã xuất bản |
Part 4: Multi-agent
Mục tiêu: nhiều agent phối hợp, khi nào nên, khi nào không.
| # | Title | Status |
|---|---|---|
| 16 | Multi-agent patterns: supervisor, handoff, debate | Đã xuất bản |
| 17 | Communication: shared state so với message passing | Đã xuất bản |
| 18 | Specialized agent roles: planner, executor, reviewer | Đã xuất bản |
| 19 | LangGraph, CrewAI, AutoGen: framework so sánh | Đã xuất bản |
| 20 | Case study: Anthropic SDK agents và Claude Code agents | Đã xuất bản |
Part 5: Production
Mục tiêu: agent chạy được trên user thật, không cháy ngân sách, không bị inject.
| # | Title | Status |
|---|---|---|
| 21 | Eval cho agent: trace, replay, golden set, regression | Đã xuất bản |
| 22 | Cost và latency: token budget, streaming, prompt caching | Đã xuất bản |
| 23 | Failure modes: hallucination, infinite loop, hijacking | Đã xuất bản |
| 24 | Security: prompt injection, tool sandboxing, secrets | Đã xuất bản |
| 25 | On-call cho agent: monitoring, alerts, rollback, A/B test | Đã xuất bản |
Bonus: Tools trending 2026
Hai bài bonus deep-dive vào hai framework agent đang dẫn đầu 2026. Không bắt buộc đọc, nhưng đáng xem nếu muốn benchmark tool đang trend.
| # | Title | Status |
|---|---|---|
| 26 | OpenClaw: open-source agent framework đang dẫn đầu 2026 | Đã xuất bản |
| 27 | Hermes Agent: AI tự học, persistent memory, chạy trên $5 VPS | Đã xuất bản |
Cách đọc series
Mỗi bài đứng được một mình. Nhưng đọc tuần tự sẽ tốt hơn vì Part 1 build mental model, Part 2-3 mở rộng từ đó, Part 4-5 giả định bạn đã code được một agent đơn giản.
Nếu đã build agent rồi và chỉ quan tâm vận hành: Part 5 đọc trước được. Nếu đã quen với LangGraph nhưng chưa hiểu control loop bên dưới: Part 1-2 sẽ làm sáng tỏ.
Không có thứ tự sai. Chỉ có thứ tự hiệu quả hơn.
Bài 1, Agent là gì: LLM cộng tools cộng memory cộng loop, khởi động series. Bắt đầu từ đó.
Cập nhật lần cuối: 2026-05-18 Trạng thái series: 25/25 đã xuất bản + 2 bonus (OpenClaw, Hermes Agent)