All posts

Roadmap series 28 bài học Kibana từ cơ bản đến production: cover Discover, KQL/ES|QL, Lens, Dashboard, Alerts, RBAC, ILM, automation và troubleshooting cho developer backend.

Read intro: Kibana từ A đến Z: Series Plan
  1. [1/28] Kibana cho Developer: Filter log, Saved Search, Dashboard và REST API Hướng dẫn toàn diện sử dụng Kibana cho lập trình viên backend: filter error log bằng KQL, tránh pitfall với ES|QL, tạo Saved Search và Dashboard qua GUI, tương tác Kibana qua REST API và quản lý API key an toàn. ~10 min read
  2. [2/28] KQL và ES|QL: So sánh hai ngôn ngữ query của Kibana Phân biệt KQL và ES|QL trong Kibana 8.x: triết lý khác nhau, cú pháp đối chiếu, pitfall phổ biến, và quy tắc tay chọn ngôn ngữ nào cho filter, aggregation, alert và dashboard. Dành cho developer backend và DevOps. ~10 min read
  3. [3/28] Discover nâng cao: Runtime fields, filter phức tạp, highlighting Nâng Discover từ mức cơ bản lên power-user: tạo Runtime field không cần reindex, filter nested object và regex, bật highlighting để scan log nhanh, phân biệt Saved Query với Saved Search, inspect request để debug query và tối ưu performance. ~8 min read
  4. [4/28] Lens: từ drag-drop tới công thức phức tạp Dựng visualization trong Kibana 8.x bằng Lens: drag-drop chart cơ bản, Formula mode với function và time shift, annotation layer cho deploy marker, reference line cho SLO, pitfall về cardinality và time interval. Dành cho developer backend muốn tự làm dashboard production-grade. ~8 min read
  5. [5/28] Canvas: dựng report branded cho stakeholder Dùng Canvas của Kibana để dựng infographic pixel-precise có brand công ty: khác Dashboard thế nào, expression language pipeline, data source ESSQL, dynamic image/color theo value, và export PDF multi-page giao CEO/CFO. Dành cho developer backend và platform team. ~8 min read
  6. [6/28] Maps: geo visualization cho IoT và telemetry trong Kibana Hướng dẫn dùng Kibana Maps để render dữ liệu địa lý từ IoT, telemetry và log có toạ độ. Cover geo_point mapping, layer types, heatmap, cluster, choropleth và pitfall hay gặp khi data từ device đẩy lên Elasticsearch. ~9 min read
  7. [7/28] Visualization pitfalls: lỗi hay gặp với aggregation và time bucket trong Kibana Tổng hợp các lỗi thường gặp khi dựng dashboard Kibana: cardinality đếm trùng, terms aggregation cắt mất nhóm nhỏ, time bucket lệch múi giờ, sum trên doc_values vs source và cách tránh báo cáo sai số liệu. ~8 min read
  8. [8/28] Alert rules trong Kibana: ES query, threshold và burn rate Hướng dẫn dựng alert rule trong Kibana 8.x: ES query rule, threshold rule, burn rate cho SLO. Cover trigger condition, schedule, evaluation logic, pitfall của time window và pattern để giảm noise. ~8 min read
  9. [9/28] Kibana Connectors: Slack, Email, Webhook và PagerDuty setup và best practices Hướng dẫn cấu hình connector trong Kibana 8.x cho Slack, Email (SMTP/Exchange), Webhook và PagerDuty. Cover security pattern, template variable, secret management và pitfall khi action không gửi notification. ~9 min read
  10. [10/28] SLO tracking trong Kibana: SLI, error budget và alert progression Hướng dẫn dựng SLO với Kibana 8.x: định nghĩa SLI từ log, cấu hình Service Level Objective, tính error budget, và setup alert progression theo Google SRE Workbook (burn rate multi-window). ~8 min read
  11. [11/28] Deduplication và throttling trong Kibana: tránh alert fatigue Hướng dẫn dedup và throttle alert trong Kibana 8.x: notifyWhen, throttle interval, group alerts, dedup_key cho PagerDuty và patterns để giảm noise mà không miss critical alert. ~8 min read
  12. [12/28] Users, Roles, RBAC: mô hình phân quyền Kibana 8.x Hiểu mô hình RBAC trong Kibana 8.x: cluster privileges, index privileges, Kibana feature privileges và cách map user qua native realm hoặc SSO để chia quyền theo team. ~8 min read
  13. [13/28] Spaces: tách dev/staging/prod và team con cùng cluster Kibana Dùng Kibana Spaces để chia dev, staging, prod và team con trên cùng một cluster. Hướng dẫn tạo space, copy saved object, default route, disabled features và pitfall với index pattern dùng chung. ~8 min read
  14. [14/28] API keys nâng cao: Document-Level Security và Field-Level Security Khoá truy cập theo từng document và che field nhạy cảm bằng DLS và FLS. Hướng dẫn tạo API key có role descriptor scope tới tenant, mask PII, cộng quyền multi-role và pitfall query templating. ~7 min read
  15. [15/28] Audit logging và compliance: ghi nhận ai làm gì cho SOC2 Bật audit log Elasticsearch và Kibana, chọn event quan trọng, ship sang index riêng, giữ trail 1 năm và bảng câu hỏi auditor SOC2 hay hỏi với truy vấn KQL kèm sẵn. ~7 min read
  16. [16/28] Index Lifecycle Management (ILM): hot/warm/cold/delete và shrinking Thiết kế ILM policy cho log index: rollover theo size, shrink xuống 1 shard, force-merge, freeze và delete. Kèm bảng node tier, rollover alias và pitfall data stream với rollover thủ công. ~8 min read
  17. [17/28] Snapshot & Restore: backup ES lên S3, disaster recovery Cấu hình S3 snapshot repository, Snapshot Lifecycle Management (SLM), restore index, test DR và bảng RPO/RTO so sánh các chiến lược backup cluster Elasticsearch. ~8 min read
  18. [18/28] Kibana behind reverse proxy: Nginx, Cloudflare với XSRF Đặt Kibana sau Nginx hoặc Cloudflare đúng cách: server.publicBaseUrl, XSRF header, websocket upgrade, kích thước header và pitfall khi Cloudflare strip header kbn-xsrf. ~8 min read
  19. [19/28] TLS/SSL end-to-end: cert giữa Kibana-ES-Beats và public endpoint Setup TLS cho Elasticsearch transport, HTTPS giữa Kibana-ES, mTLS cho Beats và rotate cert không downtime. Kèm elasticsearch-certutil, keystore và pitfall verification_mode. ~8 min read
  20. [20/28] Upgrade ELK: minor version in-place và major cluster-swap Hai chiến lược upgrade ELK production: minor version rolling restart in-place và major version cluster-swap dual-write. Kèm checklist tiền upgrade, deprecation API, downgrade plan và pitfall ILM/template incompatibility. ~10 min read
  21. [21/28] Log shippers đối chiếu: Filebeat, Fluentd, Vector cho ELK stack So sánh thực chiến ba log shipper phổ biến nhất cho ELK stack: Filebeat của Elastic, Fluentd của CNCF và Vector của Datadog. Resource footprint, ngôn ngữ pipeline, performance, debugging và lựa chọn theo use case. ~8 min read
  22. [22/28] Dashboard-as-code workflow: NDJSON, Git và CI/CD cho Kibana Workflow biến Kibana dashboard thành code: export NDJSON, commit Git, validate trong CI và import tự động qua API. Hết cảnh dashboard biến mất khi cluster rebuild hoặc người tạo nghỉ việc. ~8 min read
  23. [23/28] Kibana API tự động hoá: bulk user creation và mass dashboard update Hướng dẫn dùng Kibana REST API cho automation thực chiến: tạo hàng loạt user và role, cập nhật nhiều dashboard cùng lúc, wrap API thành CLI nội bộ. Pattern retry, pagination và error handling production-grade. ~7 min read
  24. [24/28] Terraform và Kibana: quản lý saved objects, rules, connectors như infrastructure Hướng dẫn dùng Terraform provider Elastic Stack để declarative manage saved objects, alert rules và connectors của Kibana. State management, dependency graph, migration từ NDJSON workflow. ~8 min read
  25. [25/28] Kibana không load được: checklist debug từ browser tới Elasticsearch Quy trình debug khi Kibana không lên: kiểm tra browser console, network, Kibana server logs, kết nối Elasticsearch, cluster health và disk. Mỗi layer có symptom và fix riêng. ~9 min read
  26. [26/28] Elasticsearch query chậm: profiler, slow log và shard distribution Debug query Elasticsearch chậm theo bài bản: bật slow log, đọc profile API, hiểu shard distribution và segment merge. Pattern fix thường gặp cho query phức tạp và aggregation lớn. ~8 min read
  27. [27/28] Disk full và shard imbalance: quy trình recovery Elasticsearch không mất data Runbook xử lý sự cố disk full và shard imbalance trên Elasticsearch: gỡ flood-stage read-only, free disk an toàn, force reroute shard, scale node và prevent tái diễn. Pattern thực chiến không mất data. ~8 min read
  28. [28/28] Performance tuning Elasticsearch: JVM heap, field caps cache và merge throttling Bài cuối series Kibana từ A đến Z. Tuning sâu Elasticsearch ở production: JVM heap sizing, GC tuning, field caps cache, segment merge throttling, refresh interval và circuit breaker. ~9 min read