Cộng đồng công nghệ đang xôn xao trước một khám phá thú vị: các mô hình ngôn ngữ lớn ( LLMs ) về bản chất là những thuật toán nén mạnh mẽ có thể ép một lượng kiến thức khổng lồ của con người vào những tệp tin có kích thước nhỏ đến ngạc nhiên. Khám phá này đã châm ngòi cho những cuộc thảo luận sôi nổi về cách thức hoạt động của các hệ thống AI này và ý nghĩa của chúng đối với tương lai của việc lưu trữ thông tin.
Thành Tựu Nén Đáng Kinh Ngạc
Điều đang thu hút sự chú ý của mọi người chính là lượng thông tin khổng lồ mà các mô hình này có thể nhét vào một không gian tương đối nhỏ bé. Hãy xem một mô hình 12 tỷ tham số điển hình chỉ nặng 8.1 GB - tương đương với kích thước của vài bộ phim trên điện thoại của bạn. Tuy nhiên, tệp tin duy nhất này chứa đủ kiến thức nén để trả lời các câu hỏi về lịch sử, khoa học, trò chơi điện tử gần đây và vô số chủ đề khác. Tỷ lệ nén thật đáng kinh ngạc khi bạn xem xét rằng chỉ riêng Wikipedia tiếng Anh đã chiếm khoảng 24 GB khi được nén, và đó chỉ là một nguồn kiến thức của nhân loại.
Nó không hoàn hảo, nhưng trời ơi, độ rộng của thông tin được nhúng trong một tệp tin 8.1 GB thật đáng kinh ngạc! Có mất mát thông tin, đúng vậy, nhưng đây là một cách tuyệt vời để nén toàn bộ kiến thức nhân loại vào một thứ gì đó cực kỳ gọn nhẹ.
Bí mật nằm ở cách thức các mô hình này học các mẫu và mối quan hệ trong ngôn ngữ. Không giống như nén truyền thống tìm kiếm các ký tự hoặc chuỗi lặp lại, LLMs nén chính ý nghĩa. Chúng học được rằng có nhiều cách khác nhau để diễn đạt cùng một điều, và chúng có thể tái tạo thông tin bằng cách hiểu ngữ cảnh và mối quan hệ giữa các khái niệm.
Bối cảnh Hiệu quả Nén dữ liệu
- Wikipedia tiếng Anh đã nén: ~24 GB
- Ước tính tất cả sách số hóa: Vài TB
- Mô hình 12B tham số điển hình: 8.1 GB (với lượng tử hóa 8-bit)
- Ước tính văn bản tiếng Anh hữu ích: 10-100 TB
- Các mô hình lớn hiện tại sử dụng: 1-10% tổng dữ liệu văn bản có sẵn
Quy tắc kinh nghiệm cho yêu cầu VRAM: ~4x số lượng tham số
- Mô hình 2B ≈ cần 8 GB VRAM
- Mô hình 20B ≈ cần 80 GB VRAM
Tại Sao Nén Truyền Thống Lại Thiếu Sót
Các phương pháp nén thông thường như tệp ZIP hoạt động tốt trong việc bảo toàn dữ liệu chính xác, nhưng chúng bỏ lỡ một điều quan trọng - các mối quan hệ ngữ nghĩa làm cho thông tin trở nên có ý nghĩa. Khi bạn nén một tệp văn bản bằng ZIP, bạn chỉ đang tìm các mẫu lặp lại trong các ký tự. Nhưng LLMs đi sâu hơn, học logic cơ bản và các kết nối mà con người sử dụng khi giao tiếp.
Điều này giải thích tại sao giao tiếp hàng ngày của chúng ta lại thừa thãi đến vậy. Chúng ta sử dụng nhiều từ để thiết lập ngữ cảnh, thêm sự sáng tạo để thu hút sự chú ý, và lặp lại ý tưởng theo nhiều cách khác nhau để rõ ràng. Các chuyên gia ước tính rằng 95% hoặc hơn trong giao tiếp của chúng ta có thể là sự thừa thãi thuần túy khi bạn loại bỏ thông tin cốt lõi.
Ngữ nghĩa: liên quan đến ý nghĩa trong ngôn ngữ Thừa thãi: sự lặp lại không cần thiết của thông tin
Cuộc Tranh Luận Về Nén Có Mất Mát Và Không Mất Mát
Cộng đồng chia rẽ về việc có nên gọi LLMs là nén hay không. Những người chỉ trích chỉ ra rằng không giống như nén truyền thống, bạn không thể tái tạo hoàn hảo văn bản gốc từ một LLM. Mô hình có thể cung cấp cho bạn thông tin chính xác, chi tiết hoàn toàn sai, hoặc thứ gì đó có vẻ hợp lý nhưng không chính xác một cách nguy hiểm - và không có cách nào đáng tin cậy để phân biệt.
Tuy nhiên, những người ủng hộ cho rằng điều này bỏ lỡ vấn đề chính. LLMs không cố gắng tái tạo văn bản chính xác - chúng đang nén kiến thức và khả năng suy luận về nó. Khi bạn yêu cầu một LLM đưa ra 50 từ đồng nghĩa hoặc giải thích một chủ đề phức tạp, bạn đang truy cập vào sự hiểu biết được nén, không chỉ là văn bản được lưu trữ.
Một số nhà nghiên cứu đã phát hiện ra rằng LLMs thực sự có thể hoạt động như các thuật toán nén không mất mát, sử dụng các kỹ thuật như mã hóa số học. Nhưng điều này đòi hỏi cả người gửi và người nhận phải có cùng một mô hình, khiến nó không thực tế cho hầu hết các mục đích sử dụng.
So sánh kích thước các model
Model | Tham số | Kích thước lưu trữ | Dữ liệu huấn luyện |
---|---|---|---|
GPT-2 XL (2019) | 1.6B | ~3.2 GB | ~10B token |
GPT-3 (2020) | 175B | ~350 GB | 400B token |
Llama 405B (2024) | 405B | ~810 GB | 3.67T token |
DeepSeek V3 (2024) | 671B tổng, 37B hoạt động | ~1.4 TB | 14.8T token |
Lưu ý: Kích thước lưu trữ giả định trọng số 16-bit; có thể giảm bằng kỹ thuật quantization
Ý Nghĩa Của Điều Này Đối Với Tương Lai
Bước đột phá nén này giúp giải thích tại sao chúng ta có thể đang chạm đến giới hạn trong phát triển AI. Nếu tất cả kiến thức văn bản hữu ích của con người vừa với khoảng 10-100 terabyte, và các mô hình lớn hiện tại đã sử dụng 1-10% quy mô đó, chúng ta có thể đang tiến gần đến điểm mà việc chỉ thêm dữ liệu văn bản sẽ không cải thiện hiệu suất nhiều.
Trọng tâm đang chuyển sang các phương pháp khác: thêm dữ liệu hình ảnh và video, để các hệ thống AI khám phá và tương tác với thế giới thực, và sử dụng các mô hình suy luận dành nhiều thời gian hơn để suy nghĩ về các vấn đề. Hiểu biết về nén cũng gợi ý rằng các hệ thống AI trong tương lai có thể không cần lượng phần cứng khổng lồ - máy tính tiêu dùng cao cấp ngày nay có thể đủ mạnh để chạy các hệ thống siêu thông minh một khi chúng ta tìm ra các kiến trúc phù hợp.
Hiểu LLMs như các công cụ nén thay vì chỉ là các bộ tạo văn bản mở ra những cách suy nghĩ mới về trí tuệ nhân tạo và cách làm cho nó hiệu quả và có khả năng hơn.
Tham khảo: How large are large language models? (2025)