AI Agents từ zero: Series Plan

Series này nối tiếp LLM từ zero: khi bạn đã hiểu attention, fine-tuning, inference, câu hỏi tiếp theo là “ghép LLM với thế giới ngoài thì sao”. Đó là agent: LLM cộng với tools, memory, và một control loop quyết định bước tiếp theo.

Agent là một abstraction lỏng. Mỗi framework gọi khác nhau, mỗi paper định nghĩa hơi khác. Series này không cố hợp nhất các định nghĩa. Mỗi bài tập trung một concept cụ thể, code chạy được, và một pitfall mà tôi (hoặc người khác) đã va vào trong production.

Cách tiếp cận: build from scratch trước, framework sau. Bài 5 sẽ có một agent ~100 dòng Python chỉ dùng Anthropic SDK. Đến bài 19, mới so sánh LangGraph, CrewAI, AutoGen. Lý do: framework che mất control loop, mà control loop là phần dễ sai nhất khi agent vào production.

Đối tượng

Senior dev 3+ năm, đã đọc qua LLM từ zero hoặc đã hiểu attention/tokenization/inference ở mức “không còn hỏi LLM là gì”
Backend / fullstack dev đang build AI feature trong sản phẩm, muốn vượt qua mức “gọi API trong một vòng for loop”
Engineer đã thử agent một lần thấy nó loop vô hạn / hallucinate / đốt $200 trong 1 giờ, muốn hiểu tại sao
Không yêu cầu background ML chuyên sâu. Cần Python ổn, biết async, biết JSON schema

Approach

Không phải course. Không có quiz, không có certificate. Đây là working notes của một dev đang build agent thật: viết lại những gì đã hiểu, kèm code chạy được, kèm fail mode đã gặp.

Mỗi bài có:

Mental model trước, abstraction sau, code sau cùng
Code Python với Anthropic SDK (Claude Sonnet 4.6) hoặc OpenAI SDK khi phù hợp
Pitfall thật: incident, fail mode, cost surprise, security gotcha
So sánh với phần quen thuộc: nếu bạn biết queue / state machine / RPC thì agent có analog rõ
Cross-link sang LLM series khi đụng attention, tokenization, eval

Cấu trúc series

Part 1: Foundation

Mục tiêu: hiểu agent là gì, build được một agent tối giản từ đầu.

#	Title	Status
1	Agent là gì: LLM cộng tools cộng memory cộng loop	Đã xuất bản
2	Tool use cơ bản: function calling, JSON schema, error handling	Đã xuất bản
3	Control loop: ReAct, agentic loop, điều kiện dừng	Đã xuất bản
4	Memory cho agent: context window, scratchpad, summarization	Đã xuất bản
5	Build agent từ đầu: 100 dòng Python với Anthropic SDK	Đã xuất bản

Part 2: Planning và Reasoning

Mục tiêu: agent biết “nghĩ” trước khi hành động, không chỉ phản xạ một bước.

#	Title	Status
6	ReAct: thought, action, observation cycle	Đã xuất bản
7	Plan-and-Execute: tách planning khỏi execution	Đã xuất bản
8	Tree of Thoughts và tree search cho agent	Đã xuất bản
9	Self-reflection: critic, verifier, retry pattern	Đã xuất bản
10	Chain-of-Thought so với structured reasoning	Đã xuất bản

Part 3: Tools và Environment

Mục tiêu: agent tương tác được với thế giới thật, an toàn.

#	Title	Status
11	Tool design: schema, validation, idempotency	Đã xuất bản
12	Code execution sandbox: subprocess, Docker, e2b	Đã xuất bản
13	Browser automation cho agent: Playwright và computer use	Đã xuất bản
14	RAG cho agents: retrieval trong vòng lặp, không phải QA	Đã xuất bản
15	MCP (Model Context Protocol): chuẩn hoá tool layer	Đã xuất bản

Part 4: Multi-agent

Mục tiêu: nhiều agent phối hợp, khi nào nên, khi nào không.

#	Title	Status
16	Multi-agent patterns: supervisor, handoff, debate	Đã xuất bản
17	Communication: shared state so với message passing	Đã xuất bản
18	Specialized agent roles: planner, executor, reviewer	Đã xuất bản
19	LangGraph, CrewAI, AutoGen: framework so sánh	Đã xuất bản
20	Case study: Anthropic SDK agents và Claude Code agents	Đã xuất bản

Part 5: Production

Mục tiêu: agent chạy được trên user thật, không cháy ngân sách, không bị inject.

#	Title	Status
21	Eval cho agent: trace, replay, golden set, regression	Đã xuất bản
22	Cost và latency: token budget, streaming, prompt caching	Đã xuất bản
23	Failure modes: hallucination, infinite loop, hijacking	Đã xuất bản
24	Security: prompt injection, tool sandboxing, secrets	Đã xuất bản
25	On-call cho agent: monitoring, alerts, rollback, A/B test	Đã xuất bản

Hai bài bonus deep-dive vào hai framework agent đang dẫn đầu 2026. Không bắt buộc đọc, nhưng đáng xem nếu muốn benchmark tool đang trend.

#	Title	Status
26	OpenClaw: open-source agent framework đang dẫn đầu 2026	Đã xuất bản
27	Hermes Agent: AI tự học, persistent memory, chạy trên $5 VPS	Đã xuất bản

Cách đọc series

Mỗi bài đứng được một mình. Nhưng đọc tuần tự sẽ tốt hơn vì Part 1 build mental model, Part 2-3 mở rộng từ đó, Part 4-5 giả định bạn đã code được một agent đơn giản.

Nếu đã build agent rồi và chỉ quan tâm vận hành: Part 5 đọc trước được. Nếu đã quen với LangGraph nhưng chưa hiểu control loop bên dưới: Part 1-2 sẽ làm sáng tỏ.

Không có thứ tự sai. Nhưng nếu bạn mới bắt đầu, đi từ bài 1 sẽ đỡ bị framework che mất phần cốt lõi: loop, state, tool boundary, và điều kiện dừng.

Bài 1, Agent là gì: LLM cộng tools cộng memory cộng loop, là điểm bắt đầu tốt nhất.

Cập nhật lần cuối: 2026-05-18 Trạng thái series: 25/25 đã xuất bản + 2 bonus (OpenClaw, Hermes Agent)