Các tổ chức học thuật Thụy Sĩ ETH Zurich và EPFL đang chuẩn bị phát hành một mô hình ngôn ngữ lớn đột phá hứa hẹn mang lại sự minh bạch hoàn toàn trong lĩnh vực AI. Dự kiến ra mắt vào cuối hè 2025, mô hình này không chỉ nổi bật bởi khả năng kỹ thuật mà còn bởi cam kết về sự cởi mở hoàn toàn - điều đã gây ra nhiều thảo luận đáng kể trong cộng đồng công nghệ về ý nghĩa thực sự của mở trong phát triển AI.
Thông số kỹ thuật của mô hình:
- Tham số: Phiên bản 8 tỷ và 70 tỷ tham số
- Ngôn ngữ: Hỗ trợ hơn 1.000 ngôn ngữ
- Dữ liệu huấn luyện: Hơn 15 nghìn tỷ token (60% tiếng Anh, 40% các ngôn ngữ khác)
- Lộ trình phát hành: Cuối hè 2025
- Giấy phép: Apache 2.0
![]() |
---|
Một mô hình ngôn ngữ được phát triển thông qua sự hợp tác giữa ETH Zurich và EPFL , nhấn mạnh tính minh bạch và cởi mở trong AI |
Thách thức hạ tầng và đường cong học tập
Cộng đồng đã nêu ra những lo ngại đáng kể về độ phức tạp kỹ thuật trong việc huấn luyện các mô hình quy mô lớn. Nhiều nhà quan sát lưu ý rằng mặc dù các tổ chức Thụy Sĩ có nhân tài xuất sắc, họ có thể thiếu kinh nghiệm sâu rộng với hạ tầng AI quy mô lớn. Siêu máy tính Alps tại CSCS , được trang bị hơn 10.000 chip siêu máy tính NVIDIA Grace Hopper , đại diện cho một khoản đầu tư lớn vào khả năng AI chủ quyền, nhưng việc làm cho các hệ thống như vậy hoạt động tối ưu là điều nổi tiếng khó khăn.
Huấn luyện ở quy mô này đòi hỏi nhiều hơn việc đơn giản chỉ tải dữ liệu và chạy thuật toán. Các kỹ sư phải xử lý các vấn đề độ trễ giữa các nút, thiết kế hệ thống phục hồi lỗi mạnh mẽ, tối đa hóa việc sử dụng phần cứng, và quản lý việc điều phối phức tạp của các tài nguyên điện toán phân tán. Đường cong học tập rất dốc, và ngay cả các dự án được tài trợ tốt cũng có thể gặp khó khăn với những thách thức này.
Chi tiết Cơ sở hạ tầng:
- Nền tảng huấn luyện: Siêu máy tính " Alps " tại CSCS
- Phần cứng: Hơn 10.000 chip siêu máy tính NVIDIA Grace Hopper
- Nguồn điện: 100% điện trung tính carbon
- Khả năng truy cập: Hơn 20 triệu giờ GPU có sẵn hàng năm
- Đối tác: Hợp tác hơn 15 năm với NVIDIA và HPE/Cray
Cuộc tranh luận về tính minh bạch của dữ liệu
Một trong những khía cạnh được thảo luận nhiều nhất là tuyên bố của dự án về tính minh bạch của dữ liệu. Trong khi thông báo hứa hẹn rằng dữ liệu huấn luyện sẽ minh bạch và có thể tái tạo, các thành viên cộng đồng đang đặt câu hỏi về ý nghĩa thực tế của điều này. Thách thức nằm ở quy mô khổng lồ - với các bộ dữ liệu huấn luyện thường có kích thước hàng trăm terabyte, việc cung cấp các bản sao dữ liệu hoàn chỉnh có thể không khả thi.
Kịch bản có khả năng xảy ra hơn là cung cấp danh sách URL hoặc tham chiếu đến các tài liệu nguồn thay vì nội dung thực tế. Tuy nhiên, cách tiếp cận này đặt ra câu hỏi về khả năng tái tạo thực sự, đặc biệt là vì nội dung web thay đổi theo thời gian. Một số người cho rằng điều này vẫn có thể đại diện cho sự tiến bộ so với các thực hành hiện tại của ngành công nghiệp nơi dữ liệu huấn luyện vẫn hoàn toàn mờ ám.
Trọng tâm đa ngôn ngữ và câu hỏi về hiệu suất
Việc mô hình hỗ trợ hơn 1.000 ngôn ngữ đã tạo ra sự quan tâm, mặc dù các cuộc thảo luận trong cộng đồng cho thấy sự hoài nghi về hiệu suất so với các mô hình tiên tiến nhất. Với dữ liệu huấn luyện được chia khoảng 60% tiếng Anh và 40% nội dung phi tiếng Anh trên hơn 1.500 ngôn ngữ, vẫn còn câu hỏi về việc liệu cách tiếp cận rộng này có thể làm suy giảm hiệu suất trong các ngôn ngữ chính hay không.
Dự án sẽ phát hành các mô hình với phiên bản 8 tỷ và 70 tỷ tham số, với mô hình lớn hơn được định vị để cạnh tranh trong số các mô hình hoàn toàn mở mạnh nhất toàn cầu. Tuy nhiên, không có kết quả đánh giá hoặc so sánh hiệu suất, cộng đồng vẫn thận trọng về khả năng thực tế.
Tổng quan về Sáng kiến AI Thụy Sĩ:
- Ngày ra mắt: Tháng 12 năm 2023
- Các tổ chức dẫn đầu: ETH Zurich , EPFL
- Các tổ chức tham gia: Hơn 10 tổ chức học thuật của Thụy Sĩ
- Số nhà nghiên cứu tham gia: Hơn 800 người
- Thời gian tài trợ: 2025-2028 (hỗ trợ từ ETH Board )
- Phạm vi: Nỗ lực xây dựng mô hình nền tảng AI khoa học mở lớn nhất thế giới
Phong trào chủ quyền AI châu Âu
Sáng kiến này phản ánh những nỗ lực rộng lớn hơn của châu Âu nhằm giảm sự phụ thuộc vào các hệ thống AI được phát triển tại Hoa Kỳ và Trung Quốc. Việc nhấn mạnh vào việc tôn trọng các từ chối thu thập dữ liệu web và tuân thủ các yêu cầu của EU AI Act thể hiện một cách tiếp cận ưu tiên tuân thủ pháp luật hơn là hiệu suất tối đa - một sự đánh đổi đã tạo ra những phản ứng trái chiều.
Các LLM mở ngày càng được xem là những lựa chọn thay thế đáng tin cậy cho các hệ thống thương mại, hầu hết được phát triển sau cánh gà kín tại Hoa Kỳ hoặc Trung Quốc.
Dự án đại diện cho nhiều hơn chỉ là một bản phát hành mô hình AI khác. Nó là một phần của Swiss AI Initiative , liên quan đến hơn 800 nhà nghiên cứu và được hỗ trợ bởi nguồn tài trợ công đáng kể đến năm 2028. Quy mô đầu tư này cho thấy cam kết nghiêm túc trong việc xây dựng khả năng AI châu Âu, mặc dù thành công cuối cùng sẽ phụ thuộc vào việc thực hiện và hiệu suất thực tế khi mô hình ra mắt.
Cộng đồng công nghệ sẽ theo dõi chặt chẽ khi các đánh giá và khả năng thực tế được tiết lộ vào cuối năm nay, vì điều này có thể tạo ra những tiền lệ quan trọng cho phát triển AI mã nguồn mở và cạnh tranh quốc tế trong lĩnh vực này.
Tham khảo: A language model built for the public good