Tháng trước tôi đang ngồi xem TV với mẹ, ChatGPT hiện lên trong một quảng cáo. Mẹ chỉ vào màn hình, hỏi tôi đúng câu hỏi mà mọi người đều sẽ hỏi nếu họ đủ tò mò: “Cái máy đó nó suy nghĩ kiểu gì vậy con?” Tôi định trả lời nhanh kiểu “nó đoán chữ tiếp theo thôi”, nhưng nhận ra câu trả lời đó nghe đơn giản đến mức đáng nghi. Một công cụ chỉ biết đoán chữ tiếp theo thì làm sao viết được email công việc đầy đủ, làm sao tóm tắt hợp đồng năm trang, làm sao trả lời câu hỏi về Excel?
Bài này tôi kể chi tiết hơn về cách “bộ não” của AI thực sự làm việc. Tránh thuật ngữ hết mức có thể. Mục tiêu: đọc xong, bạn mở ChatGPT hay Gemini lên và hiểu nó đang làm gì bên trong, dù chưa từng viết một dòng code.
Bắt đầu từ chỗ bạn đã biết
Cầm điện thoại lên, mở Messenger, gõ “chiều nay đi”. Phía trên bàn phím hiện ra vài gợi ý: “ăn”, “cà phê”, “học”. Đó là autocomplete. Điện thoại đoán chữ kế tiếp dựa trên những gì bạn vừa gõ, học từ rất nhiều câu mà người dùng đã gõ trước đây, ghi nhớ những cặp chữ hay đi cùng nhau. Bàn phím hiện đại như Gboard hay SwiftKey đi xa hơn, nhìn vào ngữ cảnh vài câu trước đó, vào lịch sử gõ riêng của bạn, đoán chính xác hơn. Nếu bạn hay gõ “chiều nay đi tập gym”, điện thoại học và lần sau gợi ý “tập” thay vì “ăn”.
ChatGPT và các AI lớn khác hoạt động cùng nguyên lý cốt lõi đó. Khác biệt chính là quy mô. Autocomplete điện thoại học từ vài triệu câu. ChatGPT học từ hàng chục tỷ trang văn bản. Khi đọc lượng dữ liệu lớn đến mức đó, mô hình bắt đầu nhận ra những quy luật mà autocomplete nhỏ không thấy được. Autocomplete điện thoại biết “chiều nay đi” hay đi với “ăn”, nó không biết tại sao. AI lớn, sau khi đọc hàng tỷ tin nhắn, blog, bài báo, sách giáo khoa, hợp đồng, bắt đầu nhận ra “chiều nay” liên quan đến buổi chiều, “đi” liên quan đến di chuyển, hoạt động phổ biến vào buổi chiều là ăn uống, cà phê, học hành. Nó không “hiểu” theo nghĩa con người hiểu. Nhưng nó nhận diện được rất nhiều mẫu hình mà chữ này hay đi với chữ kia trong những ngữ cảnh nào.
Andrej Karpathy, một trong những người sáng lập OpenAI, có cách mô tả tôi thích nhất. Ông nói AI lớn giống một file zip một terabyte chứa nén lại toàn bộ tri thức nó đọc được trên internet. Bạn hỏi một câu, nó “giải nén” phần phù hợp ra để trả lời. Không có ý thức, không có cảm xúc, không có ý định. Chỉ có mẫu hình.
Quy trình đoán chữ diễn ra thế nào
Tôi kể bằng ví dụ thật. Giả sử bạn hỏi ChatGPT “Thủ đô của Việt Nam là gì?”. Đầu tiên AI nhìn vào toàn bộ câu hỏi như một đoạn ngữ cảnh, không phải từng chữ riêng lẻ. Sau đó nó tự hỏi: sau câu này, chữ đầu tiên trong câu trả lời thường là gì? Dựa trên hàng tỷ ví dụ đã đọc, nó liệt kê các khả năng kèm xác suất. Có thể “Thủ” có xác suất 60%, “Hà” có 30%, “Việt” 5%, các chữ khác chia nhau phần còn lại. Nó chọn chữ có xác suất cao nhất hoặc rút thăm có trọng số. Giả sử nó chọn “Thủ”.
Bây giờ ngữ cảnh là “Thủ đô của Việt Nam là gì? Thủ”. AI hỏi tiếp: sau ngữ cảnh này, chữ kế tiếp là gì? Lại liệt kê xác suất, lại chọn. Có thể là “đô”. Lặp lại: “Thủ đô”, rồi “Thủ đô của”, rồi “Thủ đô của Việt”, và cứ thế tới khi AI sinh ra chữ đặc biệt báo hiệu hết câu, hoặc đụng giới hạn độ dài. Toàn bộ quá trình chạy rất nhanh. Một câu trả lời 100 chữ sinh ra trong vài giây, mỗi chữ là một lần dự đoán hoàn chỉnh.
Một chi tiết nhỏ cần làm rõ. Khi tôi nói “dự đoán chữ tiếp theo”, thực ra AI không làm việc với chữ, nó làm việc với token. Một token có thể là một chữ ngắn, một phần của chữ dài, hoặc một dấu câu. Chữ “Vietnam” tiếng Anh có thể bị cắt thành hai token: “Viet” và “nam”. Chữ “unhappiness” có thể bị cắt thành “un”, “happi”, “ness”. Lý do đơn giản: nếu phải nhớ từng chữ riêng lẻ thì kho từ vựng sẽ quá lớn, mà nếu chỉ nhớ từng ký tự (a, b, c, d) thì câu lại quá dài. Cắt thành token cỡ trung là một thoả hiệp thông minh. Với người dùng cuối, bạn không cần quan tâm chi tiết này, trừ khi nghe người ta nói “token” thay vì “chữ” lúc bàn về giá tiền AI (tính theo token). Một câu tiếng Anh trung bình 75 chữ thường tương đương khoảng 100 token. Tiếng Việt thường tốn nhiều token hơn vì cách AI cắt câu chưa tối ưu cho tiếng Việt.
Vì sao quy trình đơn giản này tạo ra câu trả lời nghe thông minh
Đây là phần làm nhiều người bối rối. Nếu AI chỉ đoán chữ tiếp theo dựa trên mẫu hình, vì sao nó viết được email phức tạp đầy đủ chủ ngữ vị ngữ, giải thích được khái niệm khoa học, hay làm thơ vần điệu?
Câu trả lời nằm ở quy mô và ở việc AI học không chỉ chữ mà cả mẫu hình của ngôn ngữ. Khi đọc hàng tỷ trang văn bản, AI tiếp xúc với đủ kiểu cấu trúc câu, đủ phong cách viết, đủ thể loại văn bản, đủ trường hợp lý lẽ. Nó học ngữ pháp không phải bằng sách giáo khoa mà bằng việc thấy hàng tỷ câu đúng ngữ pháp. Nó học sự kiện như “thủ đô Việt Nam là Hà Nội” vì câu đó xuất hiện trong rất nhiều văn bản. Nó học cách một email công việc thường mở bằng lời chào, thân bài ba đoạn, kết bằng chữ ký. Nó cũng học suy luận đơn giản vì nhiều văn bản chứa cả lý lẽ lẫn kết luận.
Khi bạn hỏi “viết giúp tôi email xin nghỉ phép”, AI không có template sẵn. Nhưng nó đã đọc hàng chục nghìn email xin nghỉ phép thật. Mẫu của những email đó (chào, nêu lý do, nêu thời gian, cảm ơn) đã in vào trọng số của mô hình. Khi sinh chữ tiếp theo, mỗi bước nó chọn chữ có xác suất cao nhất theo mẫu hình đó. Kết quả là email mới, không sao chép trực tiếp email nào, nhưng nghe giống email xin nghỉ phép thật.
So sánh với cách con người suy nghĩ
Đây là phần dễ nhầm nhất. Đọc câu trả lời của ChatGPT, có cảm giác nó đang “nghĩ”. Nó dùng từ “tôi”, nó xin lỗi nếu sai, nó giải thích lý do. Rất giống cách bạn trả lời. Nhưng cách AI sinh câu trả lời khác hẳn cách bạn nghĩ.
Khi bạn suy nghĩ trước khi nói, bạn có một ý tưởng tổng thể trong đầu, rồi mới chọn từ ngữ diễn đạt. AI làm ngược. Nó không có ý tưởng tổng thể trước. Nó chọn chữ tiếp theo, rồi chữ tiếp nữa, dựa trên những gì đã sinh ra trước. “Ý tưởng tổng thể” của câu trả lời xuất hiện như tổng hợp của tất cả lựa chọn chữ đó, chứ không có sẵn trong đầu nó. Hình dung khác: bạn đang chơi một game, phải viết một câu, nhưng chỉ được nhìn vào chữ vừa gõ ra và đoán chữ kế, không được phép nghĩ trước câu hoàn chỉnh. Đó là cách AI làm việc. Nó không có “tầng suy nghĩ” tách rời với “tầng nói ra”.
Hệ quả: AI rất giỏi với những câu có mẫu hình rõ ràng (email, tóm tắt, dịch thuật, viết code) vì các mẫu này có sẵn trong dữ liệu huấn luyện. AI dở hơn với những câu cần suy luận dài hoặc cần thông tin mới chưa thấy. Tôi sẽ nói kỹ hơn về phần này ở mục dưới.
Giới hạn cốt lõi xuất phát từ cơ chế
Vì AI chỉ dự đoán chữ tiếp theo, có vài giới hạn xuất phát trực tiếp từ cơ chế đó. Biết để đặt kỳ vọng đúng. AI không tự kiểm tra sự thật, vì khi chọn chữ tiếp theo, nó chọn chữ có xác suất cao theo ngữ cảnh, không phải chữ đúng nhất theo sự thật. Nếu trong dữ liệu huấn luyện có nhiều người viết sai một sự kiện, AI sẽ sinh ra câu trả lời sai một cách rất thuyết phục. Đây là lý do AI hay “bịa” (hallucinate). Bài E sẽ kể chi tiết hiện tượng này.
AI cũng không có trí nhớ dài hạn mặc định. Mỗi lần bạn mở cửa sổ chat mới, nó bắt đầu lại từ con số không. Nó không nhớ bạn là ai, lần trước nói gì. Ngữ cảnh nó nhìn vào chỉ là cuộc trò chuyện hiện tại. Đây gọi là context window (phòng đối thoại), tôi sẽ làm rõ ở bài F. Thêm vào đó, AI bị giới hạn bởi dữ liệu huấn luyện, chỉ biết những gì đã được đọc tới thời điểm huấn luyện. Hôm nay có một sự kiện mới xảy ra, AI huấn luyện từ năm ngoái không biết. Một số AI hiện đại đã tích hợp khả năng tìm kiếm web để bù lại điểm yếu này. Cuối cùng, AI không “hiểu” theo nghĩa con người hiểu. Nó nhận diện mẫu hình rất giỏi, nhưng không có khái niệm về ý nghĩa, ý định, hay đúng sai. Một câu trả lời nghe rất hợp lý vẫn có thể hoàn toàn sai. Luôn kiểm tra với những việc quan trọng.
”Bộ não của AI” có thực sự là bộ não
Câu trả lời ngắn: không, không theo nghĩa sinh học. Tên gọi “neural network” (mạng nơ-ron) bắt nguồn từ việc các nhà khoa học lấy cảm hứng từ cách neuron sinh học hoạt động, nhưng sự giống nhau dừng ở mức cảm hứng. Một mô hình AI là một mạng các con số (parameter), khoảng vài trăm tỷ đến vài nghìn tỷ con số. Bạn gửi câu hỏi, các con số đó được tính toán theo công thức cố định để cho ra xác suất chữ tiếp theo. Không có cảm xúc, không có ý chí, chỉ có toán học.
Nghe người ta nói “bộ não của AI”, hãy hiểu đó là cách nói ẩn dụ tiện lợi. Cá nhân tôi cho rằng cách dùng AI hiệu quả nhất là coi nó như một trợ lý rất nhanh nhưng luôn cần kiểm tra. Cho AI làm phần thô (nháp email, tổng hợp ý, đề xuất phương án), bạn làm phần tinh (chỉnh sửa, kiểm tra, quyết định).
Bước tiếp theo
Bài C tôi chuyển sang câu hỏi thực tế hơn: ChatGPT, Claude, Gemini, ba chatbot phổ biến nhất, chọn cái nào? Giá bao nhiêu, mỗi cái mạnh gì? So sánh theo cách dùng thật của người không tech, không dựa vào benchmark kỹ thuật.
Bạn không cần đọc xong bài B để qua bài C, hai bài độc lập. Nhưng nếu hiểu được cơ chế “dự đoán chữ tiếp theo” như trên đây, phần so sánh chatbot ở bài C sẽ có ý nghĩa hơn. Cả ba chatbot đều dựa trên cùng cơ chế cốt lõi, chỉ khác ở dữ liệu huấn luyện, ở cách tinh chỉnh sau khi huấn luyện, và ở cách giao diện được thiết kế.
Tài liệu tham khảo
- Andrej Karpathy, Deep Dive into LLMs like ChatGPT, summary
- Notes on Deep Dive into LLMs like ChatGPT from Andrej Karpathy, Diego Lopez Padilla
- How LLM Predict the Next Token, Erick Santana
- Next-Token Prediction Explained, How LLMs Generate Text
- Predictive Text, How AI Knows What You Are Going to Type, Databank
- Subword Secrets, The Intricacies and Impact of BPE Tokenization