Gemma 3n của Google tuyên bố hiệu suất 60 FPS trên Pixel, nhưng thử nghiệm thực tế chỉ cho thấy 0.16 FPS

Nhóm Cộng đồng BigGo
Gemma 3n của Google tuyên bố hiệu suất 60 FPS trên Pixel, nhưng thử nghiệm thực tế chỉ cho thấy 0.16 FPS

Google gần đây đã ra mắt Gemma 3n, một mô hình AI trên thiết bị mới hứa hẹn khả năng đa phương thức ấn tượng cho điện thoại thông minh và các thiết bị biên. Công ty tuyên bố mô hình này có thể xử lý lên đến 60 khung hình mỗi giây trên các thiết bị Google Pixel, cho phép phân tích video thời gian thực và trải nghiệm tương tác. Tuy nhiên, các thử nghiệm của cộng đồng cho thấy khoảng cách đáng kể giữa lời hứa tiếp thị và hiệu suất thực tế.

Giới thiệu Gemma 3n : mô hình AI trên thiết bị mới của Google dành cho smartphone
Giới thiệu Gemma 3n : mô hình AI trên thiết bị mới của Google dành cho smartphone

Tuyên bố hiệu suất không khớp với thử nghiệm thực tế

Khi các nhà phát triển tải xuống ứng dụng demo chính thức của Google và thử nghiệm trên các thiết bị Pixel thực tế, kết quả khác biệt đáng kể so với thông số kỹ thuật được quảng cáo. Thay vì 60 khung hình mỗi giây như đã hứa, thử nghiệm thực tế cho thấy mô hình chỉ xử lý được 0.16 khung hình mỗi giây - chậm hơn khoảng 375 lần so với tuyên bố. Một người thử nghiệm phát hiện rằng mô hình 2B mất từ 6.2 đến 7.5 giây chỉ để bắt đầu phản hồi với đầu vào hình ảnh, với tốc độ sinh chỉ 4-5 token mỗi giây.

Sự khác biệt này dường như xuất phát từ một hạn chế kỹ thuật mà Google chưa truyền đạt rõ ràng. Trong khi hệ thống nội bộ của Google có thể truy cập trực tiếp vào đơn vị xử lý Tensor thông qua các quy trình hệ thống đặc quyền, các nhà phát triển bên thứ ba và thậm chí cả ứng dụng demo công khai của Google đều bị hạn chế chỉ sử dụng suy luận CPU. Điều này tạo ra khoảng cách hiệu suất lớn khiến khả năng thời gian thực được quảng cáo trở nên không thể sử dụng được đối với hầu hết các nhà phát triển.

So sánh hiệu suất: Tuyên bố vs Thực tế

  • Tuyên bố của Google: 60 khung hình mỗi giây trên Google Pixel
  • Kiểm tra thực tế: 0.16 khung hình mỗi giây (chậm hơn 375 lần)
  • Thời gian phản hồi: 6.2-7.5 giây để bắt đầu xử lý
  • Tạo token: 4-5 token mỗi giây
Hiệu suất MMLU so với Kích thước Mô hình: Làm nổi bật các mối quan ngại về hiệu suất của Gemma 3n
Hiệu suất MMLU so với Kích thước Mô hình: Làm nổi bật các mối quan ngại về hiệu suất của Gemma 3n

Các đổi mới kiến trúc cho thấy tiềm năng bất chấp vấn đề hiệu suất

Bất chấp những lo ngại về hiệu suất, Gemma 3n giới thiệu một số đổi mới kỹ thuật thú vị. Mô hình sử dụng kiến trúc MatFormer dựa trên khái niệm búp bê Matryoshka - nơi các mô hình nhỏ hơn, có chức năng được lồng trong các mô hình lớn hơn. Điều này cho phép các nhà phát triển trích xuất các mô hình có kích thước khác nhau từ một quy trình đào tạo duy nhất, mang lại sự linh hoạt trong việc cân bằng giữa hiệu suất và khả năng.

Mô hình cũng có công nghệ Per-Layer Embeddings (PLE), giúp giảm sử dụng bộ nhớ bằng cách lưu trữ một số tham số trên CPU thay vì trong bộ nhớ gia tốc. Đối với biến thể E2B, điều này có nghĩa là chỉ khoảng 1 tỷ tham số cần được tải vào bộ nhớ tốc độ cao, mặc dù tổng mô hình chứa 5 tỷ tham số.

MatFormer: Một kiến trúc transformer lồng nhau nơi các mô hình nhỏ hơn được chứa trong các mô hình lớn hơn, tương tự như búp bê Nga lồng nhau Per-Layer Embeddings (PLE): Một kỹ thuật chia tách tham số mô hình giữa bộ nhớ CPU và bộ nhớ gia tốc để giảm yêu cầu bộ nhớ

Các Đổi Mới Kỹ Thuật

  • Kiến Trúc MatFormer: Transformer lồng nhau với các mô hình nhỏ hơn được chứa bên trong các mô hình lớn hơn
  • Per-Layer Embeddings (PLE): Phân chia tham số giữa bộ nhớ CPU và bộ nhớ accelerator
  • KV Cache Sharing: Cải thiện hiệu suất prefill gấp 3 lần so với Gemma 3 4B
  • MobileNet-V5: Bộ mã hóa thị giác mới hỗ trợ độ phân giải 256x256, 512x512 và 768x768

Việc áp dụng và tương thích trong cộng đồng

Cộng đồng nhà phát triển đã nhanh chóng thích ứng Gemma 3n cho các nền tảng và trường hợp sử dụng khác nhau. Một số nhà phát triển đã tạo ra các phiên bản tối ưu hóa cho các framework khác nhau, bao gồm định dạng GGUF cho llama.cpp và các biến thể MLX cho thiết bị Apple Silicon. Mô hình cho thấy khả năng tương thích tốt với các quy trình fine-tuning hiện có, với một số nhà phát triển báo cáo việc tích hợp thành công vào các script hiện có của họ mà không cần sửa đổi.

Tuy nhiên, cộng đồng cũng đã nêu lên lo ngại về quy ước đặt tên của Google và sự nhầm lẫn giữa Gemma (trọng số mở) và Gemini Nano (API Android). Sự nhầm lẫn này mở rộng đến các câu hỏi về cấp phép, vì một số nhà phát triển tranh luận về việc liệu trọng số mô hình AI có thể thực sự được bảo vệ bản quyền theo luật Mỹ hiện tại hay không.

Bảng xếp hạng điểm Elo của  LMArena  làm nổi bật hiệu suất của  Gemma 3n  trong số các đối thủ cạnh tranh
Bảng xếp hạng điểm Elo của LMArena làm nổi bật hiệu suất của Gemma 3n trong số các đối thủ cạnh tranh

Các ứng dụng thực tế vẫn còn hạn chế

Trong khi Google quảng bá Gemma 3n cho các ứng dụng thời gian thực như nhận dạng giọng nói, phân tích video và tương tác đa phương thức, những hạn chế hiệu suất thực tế đã hạn chế đáng kể các trường hợp sử dụng thực tế. Mô hình hoạt động tốt hơn cho các tác vụ ngoại tuyến như xử lý tài liệu, phân tích dữ liệu riêng tư và các tình huống mà kết nối mạng bị hạn chế hoặc quyền riêng tư là mối quan tâm.

Đối với tôi? Xử lý dữ liệu như ghi chú thoại riêng tư, hình ảnh, video, thông tin lịch, email, một số mã code, v.v. Những thứ tôi không muốn chia sẻ trên internet.

Khoảng cách giữa tuyên bố tiếp thị của Google và hiệu suất có thể cung cấp đặt ra câu hỏi về cách các công ty nên truyền đạt khả năng AI, đặc biệt khi các hạn chế kỹ thuật ngăn cản các nhà phát triển bên thứ ba đạt được kết quả tương tự như các cuộc trình diễn nội bộ.

Thông số kỹ thuật mô hình Gemma 3n

  • Mô hình E2B: Tổng cộng 5 tỷ tham số, ~1 tỷ tham số trong bộ nhớ gia tốc
  • Mô hình E4B: Tổng cộng 6 tỷ tham số, ~4 tỷ tham số trong bộ nhớ gia tốc
  • Yêu cầu bộ nhớ: 2GB (E2B) và 5GB (E4B)
  • Đầu vào được hỗ trợ: Hình ảnh, âm thanh, video và văn bản
  • Hỗ trợ ngôn ngữ: 145 ngôn ngữ cho văn bản, 35 ngôn ngữ cho đa phương tiện

Kết luận

Gemma 3n đại diện cho một bước tiến thú vị trong công nghệ AI trên thiết bị, với kiến trúc đổi mới và khả năng đa phương thức. Tuy nhiên, sự ngắt kết nối đáng kể giữa tuyên bố hiệu suất của Google và những gì các nhà phát triển thực sự có thể đạt được làm nổi bật những thách thức đang diễn ra trong ngành AI xung quanh tính minh bạch và kỳ vọng thực tế. Cho đến khi Google cung cấp quyền truy cập tốt hơn vào gia tốc phần cứng cho các nhà phát triển bên thứ ba, các khả năng thời gian thực được hứa hẹn vẫn chủ yếu mang tính lý thuyết đối với hầu hết các trường hợp sử dụng.

Tham khảo: Introducing Gemma 3n: The developer guide