4. Transformer – Bước ngoặt của trí tuệ nhân tạo

Tác giả : Ngô Càn Chiếu

24-03-2026

Năm 2017, tại một phòng nghiên cứu của Google, một nhóm các nhà khoa học công bố một bài báo khoa học.

Tiêu đề của bài báo nghe rất đơn giản:

“Attention Is All You Need.”
(Tạm dịch: Tất cả những gì bạn cần là sự chú ý.)

Bài báo chỉ dài khoảng vài trang.

Không có tuyên bố hoành tráng.
Không có lời khẳng định rằng nó sẽ thay đổi thế giới.

Nhưng chỉ vài năm sau, hầu hết các hệ thống AI mạnh nhất trên thế giới đều dựa trên ý tưởng trong bài báo này.

Ý tưởng đó được gọi là:

Transformer.

Vấn đề của các mô hình cũ

Trước khi Transformer xuất hiện, nhiều hệ thống AI xử lý ngôn ngữ theo cách khá giống con người đọc sách.

Chúng đọc từng từ một.

Ví dụ câu:

Con mèo đang nằm trên chiếc ghế gần cửa sổ

Mô hình sẽ xử lý theo thứ tự:

Con → mèo → đang → nằm → trên → chiếc → ghế → gần → cửa → sổ

Sau khi đọc hết câu, mô hình mới có thể dự đoán từ tiếp theo.

Cách này hoạt động khá tốt.

Nhưng nó có hai vấn đề lớn.

Vấn đề thứ nhất: khó hiểu mối quan hệ xa

Trong nhiều câu phức tạp, các từ có thể liên hệ với nhau dù nằm rất xa trong câu.

Ví dụ:

Người đàn ông mà tôi gặp hôm qua ở nhà ga đang đọc một cuốn sách

Ở đây:

đang đọc

liên quan đến:

người đàn ông

Hai cụm từ này cách nhau khá xa.

Các mô hình đọc tuần tự đôi khi gặp khó khăn trong việc theo dõi những mối liên hệ như vậy.

Vấn đề thứ hai: tính toán chậm

Các mô hình cũ phải xử lý từng từ theo thứ tự.

Điều này giống như đọc sách:

dòng 1 → dòng 2 → dòng 3

Máy tính hiện đại có thể làm nhiều phép tính cùng lúc, nhưng các mô hình tuần tự không tận dụng được điều đó.

Việc huấn luyện AI vì thế trở nên chậm hơn rất nhiều.

Ý tưởng của Transformer

Transformer đưa ra một ý tưởng hoàn toàn khác.

Thay vì đọc câu từng từ một, mô hình có thể xem toàn bộ câu cùng lúc.

Điều này giống như khi bạn nhìn vào một bức tranh.

Bạn không nhìn từng điểm ảnh theo thứ tự.

Bạn nhìn toàn bộ bức tranh và hiểu mối quan hệ giữa các phần của nó.

Transformer làm điều tương tự với văn bản.

Nó nhìn toàn bộ câu và phân tích cách các từ liên quan với nhau.

Cơ chế Attention

Trái tim của Transformer là cơ chế gọi là:

attention – sự chú ý.

Khi chúng ta đọc một câu, chúng ta không chú ý đến tất cả các từ như nhau.

Một số từ quan trọng hơn những từ khác.

Ví dụ câu:

Con mèo đang ngủ trên ghế

Để hiểu câu này, chúng ta chú ý nhiều đến các từ:

mèo
ngủ
ghế

Cơ chế attention cho phép AI làm điều tương tự.

Khi xử lý một từ, mô hình có thể “nhìn” vào tất cả các từ khác trong câu và xác định từ nào quan trọng nhất.

Một ví dụ đơn giản

Xem câu:

Con mèo nằm trên ghế vì nó mệt

Ở đây có từ:

nó

“Nó” ám chỉ điều gì?

Con người hiểu ngay rằng:

nó = con mèo

Transformer tìm ra điều này bằng attention.

Khi xử lý từ “nó”, mô hình nhìn lại các từ trước đó và nhận ra rằng từ “mèo” có liên hệ mạnh nhất.

Sức mạnh của xử lý song song

Một ưu điểm cực kỳ quan trọng của Transformer là:

xử lý song song.

Trong các mô hình cũ, máy phải đọc:

từng từ một

Transformer thì khác.

Nó có thể phân tích tất cả các từ trong câu cùng lúc.

Ví dụ câu:

Con mèo đang ngủ trên ghế

Tất cả các từ:

con
mèo
đang
ngủ
trên
ghế

được xử lý đồng thời.

Điều này giúp:

tận dụng sức mạnh của GPU
tăng tốc quá trình huấn luyện
cho phép mô hình lớn hơn nhiều

Sự ra đời của các mô hình ngôn ngữ lớn

Sau khi kiến trúc Transformer được giới thiệu, các công ty công nghệ bắt đầu xây dựng những mô hình ngôn ngữ ngày càng lớn.

Chúng được gọi là:

LLM – Large Language Models.

Những mô hình này có thể chứa:

hàng tỷ tham số
thậm chí hàng trăm tỷ tham số

Các tham số này giống như những “trọng số” trong mạng nơ-ron.

Chúng giúp mô hình học các mẫu hình trong dữ liệu.

Khi số lượng tham số tăng lên và dữ liệu huấn luyện lớn hơn, khả năng của mô hình cũng tăng lên đáng kể.

Khi AI bắt đầu gây ngạc nhiên

Khi các mô hình Transformer lớn hơn được huấn luyện, các nhà nghiên cứu bắt đầu nhận thấy những điều bất ngờ.

Mô hình không chỉ dự đoán từ tiếp theo.

Nó có thể:

trả lời câu hỏi
tóm tắt văn bản
viết bài luận
dịch ngôn ngữ
viết chương trình máy tính

Những khả năng này không được lập trình trực tiếp.

Chúng xuất hiện như những khả năng mới nổi khi mô hình trở nên đủ lớn.

Điều này khiến nhiều nhà khoa học rất ngạc nhiên.

Một câu hỏi mới

Sự thành công của Transformer dẫn đến một câu hỏi quan trọng.

Nếu một hệ thống có thể:

đọc hàng tỷ trang văn bản
hiểu mối quan hệ giữa các từ
tạo ra câu trả lời giống con người

thì điều đó có nghĩa là gì?

Liệu chúng ta đã tạo ra một dạng trí tuệ mới?

Hay đây chỉ là một hệ thống dự đoán từ cực kỳ tinh vi?

Nhờ khả năng nhìn toàn bộ câu cùng lúc và xử lý rất nhiều thông tin song song, các hệ thống AI có thể hiểu được mối liên hệ giữa các từ, giữa các câu, và giữa các ý tưởng trong một đoạn văn.

Chính nhờ bước tiến này mà những hệ thống như ChatGPT, Claude hay Gemini có thể xuất hiện.

Chúng có thể:

trả lời câu hỏi
viết bài
dịch ngôn ngữ
giải thích các khái niệm phức tạp
thậm chí viết thơ hay sáng tác nhạc

Đối với nhiều người, điều này có vẻ gần như kỳ diệu.

Một cỗ máy có thể trò chuyện, giải thích và viết văn giống như con người.

Nhưng khi nhìn sâu hơn, chúng ta sẽ thấy rằng đằng sau tất cả những khả năng đó là một cơ chế khá đơn giản.

AI không “suy nghĩ” theo cách mà bộ não con người suy nghĩ.

Thay vào đó, nó làm một việc rất đặc biệt:

nó học từ một lượng dữ liệu khổng lồ, và sau đó dự đoán điều gì có khả năng xảy ra tiếp theo.

Hiểu được điều này sẽ giúp chúng ta nhìn rõ hơn bản chất thật của trí tuệ nhân tạo.

Trong chương tiếp theo, chúng ta sẽ khám phá ba ý tưởng rất quan trọng:

dữ liệu
huấn luyện
dự đoán

Ba khái niệm đơn giản này chính là nền tảng của hầu hết các hệ thống AI hiện đại.

Và khi hiểu được chúng, chúng ta sẽ thấy rằng những cỗ máy tưởng như rất thông minh thực ra đang chơi một trò chơi khá thú vị:

trò chơi đoán điều gì sẽ xảy ra tiếp theo.