Tham vọng trí tuệ nhân tạo của Google đang mở rộng mạnh mẽ khi công ty tiết lộ chiến lược dài hạn cho Gemini, định vị nó phát triển vượt ra ngoài một trợ lý AI đơn giản thành cái mà họ gọi là mô hình thế giới. Điều này thể hiện một sự thay đổi đáng kể trong cách Google hình dung vai trò của AI trong cuộc sống hàng ngày của chúng ta, với những khả năng có thể thay đổi căn bản cách chúng ta tương tác với công nghệ.
Tham Vọng AI Toàn Cầu của Google
CEO Google DeepMind, Demis Hassabis đã phác thảo một tầm nhìn đầy tham vọng cho Gemini, nhằm biến nó thành một AI đa năng có khả năng hiểu và mô phỏng các khía cạnh của thế giới. Phương pháp mô hình thế giới này sẽ cho phép Gemini lập kế hoạch, tưởng tượng những trải nghiệm mới, và thực hiện các hành động phù hợp với ngữ cảnh thay mặt người dùng trên nhiều thiết bị. Hassabis đưa ra những điểm tương đồng giữa khả năng này và nhận thức của con người, gợi ý rằng Gemini đang được phát triển để suy nghĩ và lập luận theo cách gần giống với trí thông minh con người hơn. Công ty báo cáo đã quan sát thấy những dấu hiệu ban đầu về sự hiểu biết thế giới này trong các tương tác của Gemini với môi trường tự nhiên.
Cải Tiến Gemini 2.5 Flash và Deep Think
Trọng tâm của sự tiến bộ AI của Google là Gemini 2.5, đang nhận được những nâng cấp đáng kể. Mô hình 2.5 Flash mới, được Google mô tả là phiên bản mạnh mẽ nhất của họ cho đến nay, cung cấp các điểm chuẩn được cải thiện cho khả năng lập luận và đa phương thức, đồng thời nâng cao hiệu quả trong xử lý mã và xử lý ngữ cảnh dài. Những cải tiến này đang được cung cấp cho tất cả người dùng Gemini thông qua ứng dụng, cũng như cho người dùng doanh nghiệp thông qua Vertex AI và nhà phát triển thông qua Google AI Studio.
Ngoài ra, Google đang giới thiệu một chế độ lập luận mới gọi là Deep Think, được thiết kế để thúc đẩy Gemini 2.5 Pro xem xét nhiều giả thuyết trước khi đưa ra phản hồi. Tính năng này hiện đang được thử nghiệm rộng rãi, bao gồm đánh giá an toàn tiên tiến và tham vấn chuyên gia, trước khi có kế hoạch phát hành rộng rãi hơn. Các khả năng suy nghĩ cũng sẽ được đưa vào Live API, cải thiện khả năng xử lý các tác vụ phức tạp của Gemini.
Các cập nhật chính của Gemini 2.5:
- Gemini 2.5 Flash: Cải thiện khả năng suy luận, đa phương thức, xử lý mã và xử lý ngữ cảnh dài
- Deep Think: Chế độ suy luận mới cho phép xem xét nhiều giả thuyết (hiện đang trong giai đoạn thử nghiệm)
- Điều khiển đầu ra âm thanh tích hợp: Tùy chỉnh giọng điệu, giọng vùng miền và phong cách nói
- Tính năng âm thanh thử nghiệm: Hội thoại Cảm xúc và Âm thanh Chủ động
- Tăng cường bảo mật chống lại các cuộc tấn công tiêm nhiễm prompt
![]() |
---|
Những cải tiến của Gemini AI được trình diễn trên Samsung Galaxy S25 Ultra, phản ánh sự tích hợp các tính năng tiên tiến |
Tích Hợp Dự Án: Mariner và Astra
Chiến lược của Google bao gồm việc tích hợp hai dự án chính vào Gemini để đạt được tầm nhìn mô hình thế giới. Dự án Mariner, lần đầu tiên được tiết lộ vào tháng 12, đã phát triển để xử lý tới mười nhiệm vụ đồng thời. Các tác nhân của nó có thể nghiên cứu thông tin, đặt sự kiện và khám phá chủ đề cùng lúc, mang lại khả năng đa nhiệm mạnh mẽ mà Google xem là thiết yếu cho sự phát triển của Gemini.
Dự án Astra, được công bố tích hợp với Gemini vào tháng 3, đóng góp khả năng hiểu video, chia sẻ màn hình và các chức năng bộ nhớ. Google đã kết hợp phản hồi từ việc triển khai Astra trong Gemini Live để nâng cao trải nghiệm trên Gemini Live, Search và Live API. Sự kết hợp giữa khả năng đa nhiệm của Mariner và khả năng hiểu hình ảnh của Astra đại diện cho một bước tiến đáng kể hướng tới mục tiêu AI toàn cầu của Google.
Tích hợp dự án:
- Dự án Mariner: Khả năng đa nhiệm (xử lý lên đến 10 tác vụ đồng thời)
- Dự án Astra: Hiểu video, chia sẻ màn hình và các chức năng bộ nhớ
- Hỗ trợ MCP (Model Context Protocol) để tích hợp công cụ mã nguồn mở dễ dàng hơn
Tính Năng Âm Thanh và Bảo Mật Nâng Cao
Gemini 2.5 cũng đang có được các điều khiển đầu ra âm thanh gốc, cho phép các nhà phát triển tùy chỉnh cách AI nói bằng cách thay đổi giọng điệu, giọng nói và phong cách nói. Bản cập nhật này mang đến các tính năng thử nghiệm bao gồm Affective Dialogue, cho phép Gemini phát hiện cảm xúc trong giọng nói của người dùng và phản hồi một cách phù hợp, và Proactive Audio, giúp Gemini bỏ qua giọng nói nền trong khi chờ đợi thời điểm thích hợp để phản hồi.
Về mặt bảo mật, Google đang tăng cường Gemini 2.5 với các biện pháp bảo vệ nâng cao chống lại các hướng dẫn được nhúng độc hại và các cuộc tấn công tiêm prompt gián tiếp, giải quyết những lo ngại ngày càng tăng về lỗ hổng AI.
Công Cụ và Hỗ Trợ cho Nhà Phát Triển
Nhận thức được tầm quan trọng của hệ sinh thái nhà phát triển, Google đang cung cấp các tóm tắt sâu sắc để giúp các nhà phát triển hiểu quá trình suy nghĩ và hành động của Gemini, tạo điều kiện gỡ lỗi dễ dàng hơn. Các tính năng kiểm soát chi phí thông qua ngân sách suy nghĩ sẽ đến với Gemini 2.5 Pro trong những tuần tới, cùng với một mô hình có sẵn rộng rãi.
Hơn nữa, Gemini 2.5 đang bổ sung hỗ trợ Model Context Protocol (MCP), đơn giản hóa việc tích hợp các công cụ mã nguồn mở vào các dự án Gemini. Google đã chỉ ra rằng họ đang khám phá các máy chủ MCP và các công cụ lưu trữ bổ sung để hỗ trợ hơn nữa cộng đồng nhà phát triển.
Khi Google tiếp tục nâng cao khả năng của Gemini, công ty dường như đang cân bằng giữa đổi mới nhanh chóng với thử nghiệm cẩn thận và đánh giá an toàn, đặc biệt là đối với các tính năng phức tạp hơn như Deep Think. Cách tiếp cận này phản ánh tầm quan trọng trong cuộc đua AI, nơi Google đang nỗ lực duy trì lợi thế cạnh tranh trong khi giải quyết các mối quan tâm về an toàn và trách nhiệm AI.