Sự ra mắt đầy tham vọng của dòng mô hình AI mới nhất của Meta đã bị che mờ bởi những câu hỏi về tính minh bạch và các tuyên bố về hiệu suất. Gã khổng lồ mạng xã hội gần đây đã công bố thế hệ mô hình ngôn ngữ lớn mới của mình, Llama 4, nhưng buổi ra mắt đã nhanh chóng vướng vào tranh cãi về phương pháp kiểm tra điểm chuẩn khiến cộng đồng AI nghi ngờ.
Dòng sản phẩm Llama 4
Meta gần đây đã phát hành dòng mô hình đa phương thức Llama 4, tuyên bố có những cải tiến đáng kể về hiệu suất so với các đối thủ cạnh tranh. Công ty đã giới thiệu ba mô hình trong thế hệ mới này: Llama 4 Scout, Llama 4 Maverick và Llama 4 Behemoth. Theo Meta, mô hình lớn nhất - Behemoth - có ấn tượng với tổng cộng 2 nghìn tỷ tham số và được cho là vượt trội hơn các mô hình từ các nhà lãnh đạo ngành như OpenAI, Anthropic và Google trên một số điểm chuẩn STEM. Tuy nhiên, trong khi Meta đã đưa ra những tuyên bố mạnh mẽ về khả năng của Behemoth, mô hình hàng đầu này vẫn chưa có sẵn cho công chúng, chỉ có các mô hình nhỏ hơn là Scout và Maverick hiện đang được các nhà phát triển tiếp cận.
Họ mô hình Llama 4 của Meta:
- Llama 4 Scout: Mô hình nhỏ hơn, có sẵn cho công chúng
- Llama 4 Maverick: Mô hình cỡ trung bình, có sẵn cho công chúng (nhưng phiên bản được đánh giá khác với phiên bản được phát hành)
- Llama 4 Behemoth: Mô hình lớn nhất với 2 nghìn tỷ tham số, chưa được phát hành công khai
Tranh cãi về điểm chuẩn xuất hiện
Buổi ra mắt nhanh chóng phải đối mặt với chỉ trích khi các nhà phát triển phát hiện ra sự khác biệt giữa những gì Meta đã đánh giá điểm chuẩn và những gì thực sự được phát hành cho công chúng. Cụ thể, tranh cãi tập trung vào Llama 4 Maverick, được đánh giá trên nền tảng LM Arena phổ biến, nơi mọi người so sánh và đánh giá phản hồi của các mô hình AI. TechCrunch đưa tin rằng Meta đã đánh giá điểm chuẩn một phiên bản Maverick được tinh chỉnh kỹ lưỡng hơn so với phiên bản được phát hành công khai cho các nhà phát triển, một sự thật chỉ được đề cập trong phần chữ nhỏ trong bài đăng blog của chính Meta. Tiết lộ này đã khiến LM Arena thông báo rằng họ sẽ cập nhật chính sách của mình để đánh giá mô hình công bằng và có thể tái tạo trong tương lai.
Chi tiết về tranh cãi liên quan đến điểm chuẩn:
- Nền tảng: LM Arena
- Vấn đề: Meta đã đánh giá điểm chuẩn cho một phiên bản Llama 4 Maverick được tinh chỉnh kỹ lưỡng hơn so với phiên bản được phát hành công khai
- Công bố: Chỉ được đề cập trong phần chú thích nhỏ trong bài đăng blog của Meta
- Kết quả: LM Arena đang cập nhật các chính sách để có "đánh giá công bằng, có thể tái tạo được"
Phản hồi của LM Arena
Nền tảng điểm chuẩn đã nhanh chóng giải quyết tình huống, tuyên bố trên mạng xã hội: Cách hiểu của Meta về chính sách của chúng tôi không phù hợp với những gì chúng tôi mong đợi từ các nhà cung cấp mô hình. Do đó, chúng tôi đang cập nhật chính sách bảng xếp hạng để củng cố cam kết của mình về các đánh giá công bằng, có thể tái tạo để sự nhầm lẫn này không xảy ra trong tương lai. Sự cố này đã làm dấy lên những câu hỏi nghiêm trọng về độ tin cậy của các điểm chuẩn AI và tính minh bạch của các tuyên bố được đưa ra bởi các nhà phát triển AI lớn về hiệu suất mô hình của họ.
Các tuyên bố về hiệu suất bị xem xét kỹ lưỡng
Meta đã định vị Llama 4 là mô hình hoạt động tốt hơn và hiệu quả về chi phí hơn so với GPT-4o của OpenAI và Gemini 2.0 của Google cho các nhiệm vụ bao gồm viết sáng tạo, lập trình và tóm tắt tài liệu. Tuy nhiên, tranh cãi về điểm chuẩn đã làm dấy lên nghi ngờ về những khẳng định này, với các nhà nghiên cứu AI đã lên tiếng trên các nền tảng mạng xã hội như X (trước đây là Twitter) để làm nổi bật những điểm khác biệt. Tình huống này nhấn mạnh mối quan ngại ngày càng tăng về cách đo lường và báo cáo khả năng AI trong một thị trường ngày càng cạnh tranh.
Bối cảnh cuộc đua AI rộng lớn hơn
Tranh cãi này diễn ra vào thời điểm cạnh tranh trong lĩnh vực AI đang ngày càng gay gắt. Microsoft gần đây đã kỷ niệm 50 năm thành lập bằng cách nhấn mạnh các đổi mới AI của mình và công bố các khả năng mới cho trợ lý Copilot. Trong khi đó, ngành công nghiệp phải đối mặt với những thách thức tiềm ẩn từ thuế quan mới được Tổng thống Trump công bố, mặc dù miễn trừ cho chất bán dẫn, nhưng có thể làm tăng chi phí xây dựng các trung tâm dữ liệu khổng lồ nơi các mô hình AI được đào tạo.
![]() |
---|
Trụ sở Microsoft kỷ niệm 50 năm thành lập, thể hiện sự phát triển và đổi mới của công ty, song song với sự cạnh tranh ngày càng tăng trong lĩnh vực AI |
Ý nghĩa đối với tính minh bạch của AI
Tranh cãi về điểm chuẩn của Llama 4 làm nổi bật một vấn đề ngày càng tăng trong ngành công nghiệp AI: nhu cầu về các phương pháp đánh giá chuẩn hóa, minh bạch. Khi các công ty đua nhau tuyên bố hiệu suất vượt trội cho các mô hình của họ, sự cố này nhắc nhở rằng các điểm chuẩn không phải lúc nào cũng là thước đo đáng tin cậy về khả năng AI. Đối với các nhà phát triển và doanh nghiệp đang tìm cách áp dụng những công nghệ này, điều này nhấn mạnh tầm quan trọng của việc tiến hành đánh giá độc lập thay vì chỉ dựa vào các tuyên bố của nhà cung cấp.
Điều gì tiếp theo cho chiến lược AI của Meta
Mặc dù có tranh cãi, Meta tiếp tục định vị mình là một người chơi chính trong phong trào AI mã nguồn mở. Chiến lược của công ty trong việc phát hành các mô hình với khả năng và kích thước khác nhau nhằm cung cấp các tùy chọn cho các trường hợp sử dụng và ràng buộc tính toán khác nhau. Tuy nhiên, sự cố này có thể khiến Meta xem xét lại cách họ truyền thông về hiệu suất mô hình và điểm chuẩn trong tương lai, khi niềm tin và tính minh bạch trở thành những yếu tố ngày càng quan trọng trong bối cảnh AI cạnh tranh.