grep -r "llm"
65 posts tagged llm
- LLM từ zero: Series Plan
- AI Agents từ zero: Series Plan
- AI Coding Providers Series: Chọn đúng plan cho workload của bạn
- Mua AI Coding Plan nào? Research 5 providers lớn (2026-04)
- Tiếng Việt tốn hơn x2 token? Data nói khác
- Does Vietnamese really cost 2x+ tokens in LLM prompts? Data from 5626 real messages
- LLM hoạt động thế nào: mental model cho dev
- Calculus cho LLM: gradient, chain rule, backprop intuition
- Linear algebra cho LLM: vector, matrix, dot product
- Neural network tối giản: perceptron, MLP từ zero
- Probability cho LLM: softmax, cross-entropy, perplexity
- Build BPE tokenizer từ đầu (theo Karpathy minbpe)
- Attention mechanism: Query, Key, Value intuition
- Embeddings: word2vec, contextual, và positional encoding (RoPE)
- Multi-head attention: tại sao chia nhiều head
- nanoGPT: 300 dòng PyTorch tái tạo GPT từ đầu
- Self-attention: code từ đầu bằng NumPy
- Transformer block: attention + MLP + layer norm + residual
- Tokenization: BPE, WordPiece, SentencePiece
- AI agent local: pattern cũ, blast radius mới
- Distributed training: DP, DDP, FSDP, pipeline parallel
- DPO và RLHF: alignment với preference data
- Evaluation: MMLU, GSM8K, HumanEval, custom benchmark
- Hands-on fine-tune Llama-3 với dataset tiếng Việt LoRA $20 GPU
- KV cache và PagedAttention: tăng throughput inference
- LLM Agents: ReAct, tool use, planning, multi-step reasoning
- Long context: RoPE scaling, YaRN, ALiBi extrapolation
- LoRA và QLoRA: parameter-efficient fine-tuning
- Mixed precision FP16 BF16 và gradient checkpointing
- Mixture of Experts (MoE): Mixtral, DeepSeek architecture
- Quantization: INT8, INT4, GGUF, AWQ và BitNet 1.58-bit
- RAG: retrieval-augmented generation từ vector DB tới prompt
- Reasoning models: o1, R1, chain-of-thought training
- Scaling laws: Chinchilla, compute-optimal, data efficient
- Serving frameworks: vLLM, llama.cpp, Ollama, bitnet.cpp đối chiếu
- SFT: supervised fine-tuning với instruction dataset
- Training loop: forward, backward, optimizer, lr schedule
- 30 bài LLM bằng agents trong 1 tháng: cái được, cái dở, ~0.5M token
- Agent là gì: LLM cộng tools cộng memory cộng loop
- Control loop: ReAct, agentic loop, điều kiện dừng
- Chain-of-Thought so với structured reasoning
- Build agent từ đầu: 100 dòng Python với Anthropic SDK
- Memory cho agent: context window, scratchpad, summarization
- Plan-and-Execute: tách planning khỏi execution
- Tree of Thoughts và tree search cho agent
- Agent communication: shared state so với message passing
- Eval cho agent: trace, replay, golden set, regression
- Cost và latency: token budget, streaming, prompt caching
- Failure modes: hallucination, infinite loop, hijacking
- On-call cho agent: monitoring, alerts, rollback, A/B test
- Security: prompt injection, tool sandboxing, secrets
- Case study: Anthropic SDK agents và Claude Code agents
- Browser automation cho agent: Playwright và computer use
- Code execution sandbox: subprocess, Docker, e2b
- LangGraph, CrewAI, AutoGen: framework so sánh
- MCP (Model Context Protocol): chuẩn hoá tool layer
- Multi-agent patterns: supervisor, handoff, debate
- RAG cho agents: retrieval trong vòng lặp, không phải QA
- ReAct: thought, action, observation cycle
- Self-reflection: critic, verifier, retry pattern
- Specialized agent roles: planner, executor, reviewer
- Tool design: schema, validation, idempotency
- Tool use cơ bản: function calling, JSON schema, error handling
- Hermes Agent: AI tự học, persistent memory, chạy trên $5 VPS
- OpenClaw: open-source agent framework đang dẫn đầu 2026