Lịch sử của trí tuệ nhân tạo chứa đầy những đột phá bất ngờ và các nghiên cứu bị bỏ qua mà cuối cùng đã định hình nên công nghệ chúng ta sử dụng ngày nay. Trong khi các mô hình ngôn ngữ lớn hiện tại như ChatGPT có vẻ như là một sự tiến bộ tất yếu, thì con đường thực tế dẫn đến AI hiện đại hoàn toàn không hề thẳng tắp, với những hiểu biết quan trọng xuất hiện từ các nghiên cứu ban đầu bị cộng đồng AI chính thống bác bỏ hoặc đánh giá thấp.
Những Người Tiên Phong Bị Lãng Quên của Việc Tinh Chỉnh Mô Hình Ngôn Ngữ
Rất lâu trước khi ChatGPT chiếm lấy trí tưởng tượng của công chúng, các nhà nghiên cứu đã âm thầm đặt nền móng cho các hệ thống AI hiện đại. Các bình luận tiết lộ rằng ULMFiT, được phát triển vào năm 2018, là người tiên phong trong phương pháp tiếp cận ba giai đoạn sau này trở thành thông lệ tiêu chuẩn: tiền huấn luyện một mô hình ngôn ngữ trên kho ngữ liệu chung, tinh chỉnh nó trên dữ liệu chuyên ngành, và sau đó điều chỉnh nó cho các nhiệm vụ phân loại cụ thể. Phương pháp luận này, vốn có vẻ hiển nhiên khi nhìn lại, ban đầu đã vấp phải sự hoài nghi.
ULMFiT cũng là người tiên phong trong phương pháp tiếp cận 3 giai đoạn để tinh chỉnh mô hình ngôn ngữ bằng cách sử dụng mục tiêu LM nhân quả và sau đó tinh chỉnh nó với mục tiêu phân loại, phương pháp mà sau này đã được sử dụng trong GPT 3.5 instruct, và ngày nay được sử dụng ở hầu hết mọi nơi.
Thậm chí sớm hơn, nghiên cứu của Dai và Le vào năm 2015 đã khám phá việc tinh chỉnh các mô hình ngôn ngữ cho các nhiệm vụ hạ nguồn, mặc dù họ đã bỏ lỡ hiểu biết quan trọng rằng việc tiền huấn luyện cho mục đích chung trên các kho ngữ liệu khổng lồ là bước đầu tiên thiết yếu. Những đóng góp nền tảng này chứng minh rằng sự tiến bộ trong AI thường được xây dựng dựa trên những ý tưởng ban đầu không được chú ý.
Các Mô Hình AI Lịch Sử Quan Trọng và Tác Động Của Chúng:
- ULMFiT (2018): Tiên phong trong phương pháp tinh chỉnh 3 giai đoạn được sử dụng sau này trong GPT-3.5 Instruct
- Dai và Le (2015): Khám phá sớm về tinh chỉnh mô hình ngôn ngữ, có trước cả ULMFiT
- BERT (2018): Cách mạng hóa các tác vụ hiểu ngôn ngữ tự nhiên với hơn 145 nghìn trích dẫn
- GPT-1 (2018): Mô hình sinh sớm với 16 nghìn trích dẫn, nền tảng cho các mô hình GPT sau này
- ModernBERT (2024): Kiến trúc BERT được cập nhật với hơn 1,5 triệu lượt tải xuống và hơn 2 nghìn biến thể
![]() |
---|
Minh họa các cơ chế attention, một khía cạnh cơ bản của các mô hình ngôn ngữ hiện đại và quy trình tinh chỉnh của chúng |
Sự Xuất Hiện Bất Ngờ của Các Khả Năng Hiện Đại
Có lẽ khía cạnh đáng ngạc nhiên nhất của sự phát triển AI là sự xuất hiện của các khả năng mà các nhà nghiên cứu không lường trước được. Trái với niềm tin phổ biến, các mô hình ngôn ngữ tinh vi ngày nay không phải là kết quả của các lộ trình được lên kế hoạch cẩn thận, mà thay vào đó, chúng xuất hiện từ việc mở rộng quy mô các kiến trúc hiện có và khám phá ra các hành vi bất ngờ.
Thảo luận trong cộng đồng nổi bật rằng khi các nhà nghiên cứu OpenAI quan sát thấy GPT-2 tạo ra văn bản trôi chảy, mục tiêu ban đầu của họ chỉ đơn giản là làm cho nó tạo ra văn bản ngẫu nhiên tốt hơn. Những khả năng đáng chú ý sau đó—trả lời câu hỏi, dịch ngôn ngữ, thể hiện sự sáng tạo—phần lớn là không ngờ tới. Mô hình này về các khả năng xuất hiện tiếp tục làm các nhà nghiên cứu bối rối, vì các lý do cơ bản tại sao việc mở rộng quy mô lại tạo ra những hành vi tinh vi như vậy vẫn chưa được hiểu rõ.
Dòng thời gian xuất hiện các khả năng của AI:
- 2014-2015: Memory Networks và Neural Turing Machines khám phá cơ chế attention và bộ nhớ
- 2018: BERT và GPT-1 thể hiện các cách tiếp cận khác nhau đối với mô hình hóa ngôn ngữ
- 2018: ULMFiT thiết lập phương pháp fine-tuning hiện đại
- 2019-2020: GPT-2/GPT-3 cho thấy các khả năng xuất hiện bất ngờ thông qua việc mở rộng quy mô
- 2022: ChatGPT phổ biến hóa phương pháp fine-tuning đã được tiên phong nhiều năm trước đó
![]() |
---|
Sơ đồ minh họa các embedding từ, làm nổi bật cách các mô hình ngôn ngữ đạt được những khả năng phức tạp thông qua kiến trúc được mở rộng quy mô |
Sự Tiến Hóa Song Song của Các Cách Tiếp Cận AI Khác Nhau
Trong khi cuộc thảo luận ngày nay tập trung vào AI tạo sinh, các bình luận tiết lộ rằng nhiều phương pháp tiếp cận đã tiến hóa đồng thời, mỗi phương pháp có thế mạnh riêng. BERT, được giới thiệu cùng thời điểm với các mô hình GPT đầu tiên, đã đi theo một con đường khác bằng cách tập trung vào sự hiểu biết thay vì tạo sinh. Với hơn 145.000 trích dẫn, tác động của BERT đối với xử lý ngôn ngữ tự nhiên là ngay lập tức và sâu sắc, khiến các phương pháp tiếp cận trước đây cho các nhiệm vụ như nhận dạng thực thể có tên và phân loại tài liệu trở nên lỗi thời ngay lập tức.
Sự tồn tại dai dẳng của các mô hình kiểu BERT cho các nhiệm vụ NLP cụ thể chứng minh rằng bối cảnh AI không phải là một sự tiến triển tuyến tính đơn giản mà đúng hơn là một hệ sinh thái đa dạng, nơi các kiến trúc khác nhau vượt trội ở các ứng dụng khác nhau. Các phát triển gần đây như ModernBERT, với hơn 1,5 triệu lượt tải xuống và 2.000 biến thể trên Hugging Face, cho thấy cách tiếp cận này tiếp tục phát triển và tìm thấy các ứng dụng mới.
![]() |
---|
Các khái niệm đại số vector minh họa mối quan hệ giữa các kiến trúc mô hình AI khác nhau và chức năng của chúng |
Những Nhà Tiên Kiến Thời Kỳ Đầu và Những Dự Đoán Không Phổ Biến Của Họ
Giữa sự ngạc nhiên chung về sự tiến bộ nhanh chóng của AI, một số nhà nghiên cứu đã nhìn thấy tiềm năng từ sớm. Các bình luận lưu ý rằng Phil Blunsom, người đã dẫn dắt mô hình hóa ngôn ngữ tại DeepMind trong gần một thập kỷ, đã lập luận tại Oxford rằng việc giải quyết dự đoán từ tiếp theo có thể là một con đường khả thi hướng tới trí tuệ nhân tạo phổ quát. Vào thời điểm đó, quan điểm này rõ ràng là thiểu số, với hầu hết các nhà nghiên cứu coi cách tiếp cận này là không hứa hẹn.
Tương tự, công trình về mạng bộ nhớ và máy Turing thần kinh vào giữa những năm 2010 đã khám phá việc kết hợp sự chú ý với bộ nhớ theo những cách mà sau này sẽ trở thành trung tâm của các kiến trúc transformer. Những khám phá ban đầu này đã chứng minh các khả năng cơ bản về trả lời câu hỏi, báo trước các hệ thống AI hiện đại, ngay cả khi việc triển khai của chúng còn thô sơ so với tiêu chuẩn ngày nay.
Hành trình đến với AI hiện đại đã được đánh dấu bằng cả sự đổi mới có chủ đích và những tai nạn hạnh phúc. Khi các nhà nghiên cứu tiếp tục đẩy ranh giới của những gì có thể, lịch sử của những phát triển này đóng vai trò như một lời nhắc nhở rằng tiến bộ công nghệ thường đi theo những con đường không thể đoán trước, với nghiên cứu bị bỏ qua ngày hôm nay có khả năng trở thành công nghệ nền tảng của ngày mai.
Tham khảo: Lịch sử của các Mô hình Ngôn ngữ Lớn