Gemma 3 270M của Google cho thấy tiềm năng bất chấp các vấn đề hiệu suất ban đầu

Nhóm Cộng đồng BigGo
Gemma 3 270M của Google cho thấy tiềm năng bất chấp các vấn đề hiệu suất ban đầu

Google đã phát hành Gemma 3 270M , một mô hình ngôn ngữ nhỏ gọn với 270 triệu tham số được thiết kế cho các tác vụ tinh chỉnh chuyên biệt. Trong khi công ty định vị đây là một bước đột phá trong AI hiệu quả, việc thử nghiệm sớm của cộng đồng cho thấy những hạn chế đáng kể, làm nổi bật thách thức trong việc tạo ra các mô hình quy mô nhỏ hữu ích.

Thông số kỹ thuật của mô hình:

  • Tham số: Tổng cộng 270 triệu (170M embeddings + 100M transformer blocks)
  • Từ vựng: 256.000 token
  • Cửa sổ ngữ cảnh: 32.000 token
  • Kích thước mô hình: Tải xuống 241MB
  • Lượng tử hóa: Độ chính xác INT4 có sẵn
  • Mức tiêu thụ pin: 0,75% cho 25 cuộc hội thoại trên Pixel 9 Pro
Thông báo về Gemma 3 270M: Một bước đột phá trong công nghệ AI nhỏ gọn
Thông báo về Gemma 3 270M: Một bước đột phá trong công nghệ AI nhỏ gọn

Vấn đề ảo giác chiếm ưu thế trong thử nghiệm ban đầu

Các thành viên cộng đồng nhanh chóng phát hiện ra rằng mô hình cơ sở gặp khó khăn với độ chính xác thực tế cơ bản và tính nhất quán logic. Một nỗ lực của người dùng khi hỏi về những ngọn núi cao nhất thế giới đã dẫn đến việc mô hình liên tục khẳng định Mount Everest vừa là đỉnh cao thứ nhất, thứ hai và thứ ba. Ngay cả khi được trình bày danh sách chính xác của chính nó cho thấy K2 là đỉnh cao thứ hai, mô hình vẫn tiếp tục khăng khăng rằng Everest giữ mọi vị trí.

Mô hình cũng tạo ra những kết quả đầu ra cực kỳ sáng tạo nhưng không chính xác. Khi được yêu cầu tạo ra một SVG về một con bồ nông cưỡi xe đạp, nó lại tạo ra thơ nghệ thuật ASCII , mô tả một con mèo có cánh và đuôi đang cưỡi xe đạp. Những kết quả này chứng minh xu hướng ảo giác rộng rãi của mô hình khi được sử dụng cho các tác vụ mục đích chung.

Ảo giác: Khi các mô hình AI tạo ra thông tin sai lệch hoặc vô nghĩa nhưng có vẻ tự tin và hợp lý

Tinh chỉnh nổi lên như giải pháp chính

Đội ngũ của Google nhấn mạnh rằng mô hình 270M không được thiết kế để sử dụng chung ngay lập tức. Thay vào đó, nó phục vụ như một nền tảng cho việc tinh chỉnh theo tác vụ cụ thể. Công ty cung cấp các hướng dẫn miễn phí cho phép người dùng tùy chỉnh mô hình trong vòng chưa đến năm phút bằng cách sử dụng Google Colab .

Gợi ý của tôi ở đây là kết nối mô hình này với một hệ thống RAG , sau đó bạn có thể dựa vào một kho lưu trữ kiến thức bên ngoài. Hoặc bạn có thể thử tinh chỉnh mô hình này với những sự kiện quan trọng đối với bạn

Những người áp dụng sớm báo cáo thành công khi họ điều chỉnh kỳ vọng và chiến lược nhắc nhở của mình. Người dùng phát hiện rằng việc cực kỳ cụ thể với hướng dẫn và định dạng đầu ra đã cải thiện kết quả một cách đáng kể, với tỷ lệ thành công tăng từ gần bằng không lên hơn 80% cho một số tác vụ nhất định.

RAG (Retrieval-Augmented Generation): Một kỹ thuật kết hợp các mô hình AI với cơ sở dữ liệu bên ngoài để cải thiện độ chính xác

Đặc điểm hiệu suất:

  • Tốc độ: ~80 token mỗi giây trên iPhone 16 Pro
  • Dữ liệu huấn luyện: 6 nghìn tỷ token
  • Điểm IFEval: 51.2
  • Được thiết kế cho: Tinh chỉnh theo tác vụ cụ thể, không phải để trò chuyện tổng quát
  • Trường hợp sử dụng tốt nhất: Phân loại văn bản, phân tích cảm xúc, trích xuất dữ liệu
  • Thời gian tinh chỉnh: ~5 phút trên Google Colab miễn phí

Kiến trúc kỹ thuật đặt ra câu hỏi

Thiết kế bất thường của mô hình phân bổ 170 triệu tham số cho embeddings và chỉ 100 triệu cho các khối transformer . Việc phân bổ embedding 68% này cao hơn đáng kể so với các mô hình ngôn ngữ điển hình, phản ánh sự tập trung của Google vào việc hỗ trợ nhiều ngôn ngữ và từ vựng chuyên biệt.

Các thành viên cộng đồng đặt câu hỏi liệu lựa chọn kiến trúc này có hạn chế khả năng lý luận của mô hình hay không. Từ vựng lớn với 256.000 token nhằm xử lý các thuật ngữ hiếm và chuyên biệt, nhưng một số người dùng tự hỏi liệu việc dành nhiều tham số hơn cho logic xử lý có thể cải thiện hiệu suất hay không.

Ứng dụng thực tế cho thấy kết quả hỗn hợp

Bất chấp những hạn chế, một số người dùng đã tìm thấy các ứng dụng thực tế. Mô hình cho thấy tiềm năng cho việc phân loại văn bản đơn giản, phân tích cảm xúc và trích xuất dữ liệu có cấu trúc khi được tinh chỉnh đúng cách. Kích thước 241MB của nó làm cho nó cực kỳ nhanh và phù hợp cho các thiết bị edge , với các thử nghiệm cho thấy nó chỉ sử dụng 0,75% pin điện thoại thông minh cho 25 cuộc hội thoại.

Tuy nhiên, các nỗ lực sử dụng nó cho kiểm duyệt nội dung, hỗ trợ lập trình hoặc các tác vụ lý luận phức tạp phần lớn đều thất bại. Người dùng cố gắng xây dựng bộ lọc chat game phát hiện rằng việc huấn luyện an toàn của mô hình can thiệp vào việc tuân theo các hướng dẫn cụ thể, ngay cả đối với các bối cảnh game hợp pháp.

Kết luận

Gemma 3 270M đại diện cho một thí nghiệm thú vị trong việc tạo ra các mô hình AI cực kỳ nhỏ gọn. Trong khi hiệu suất cơ sở của nó làm thất vọng những người dùng mong đợi khả năng mục đích chung, mô hình có thể tìm thấy thành công trong các tác vụ hẹp, được xác định rõ ràng sau khi tinh chỉnh thích hợp. Sự tiếp nhận hỗn hợp của cộng đồng làm nổi bật thách thức đang diễn ra trong việc cân bằng kích thước mô hình, khả năng và tiện ích thực tế trong cuộc đua hướng tới các hệ thống AI hiệu quả.

Tham khảo: Introducing Gemma 3 270M: The compact model for hyper-efficient AI