Google đã có bước tiến đáng kể trong khả năng trí tuệ nhân tạo với việc ra mắt mô hình Gemini 2.5 Computer Use , hiện đã có sẵn trong bản xem trước công khai dành cho các nhà phát triển. Công nghệ đột phá này đại diện cho sự chuyển đổi cơ bản từ các trợ lý AI chỉ đưa ra gợi ý hành động sang những trợ lý thực sự có thể thực hiện các tác vụ bằng cách tương tác trực tiếp với giao diện web như một người dùng thực thụ.
Phương pháp cách mạng trong tự động hóa web
Mô hình Gemini 2.5 Computer Use hoạt động thông qua hệ thống dựa trên ảnh chụp màn hình sáng tạo, thoát khỏi các phương pháp truyền thống phụ thuộc vào API. Thay vì yêu cầu giao diện dữ liệu có cấu trúc rõ ràng, mô hình phân tích các ảnh chụp màn hình trực quan của trang web và tạo ra các hành động giao diện người dùng cụ thể để phản hồi. Quá trình tuần hoàn này bao gồm việc gửi cho mô hình một ảnh chụp màn hình cùng với lịch sử hành động gần đây, nhận các lệnh gọi hàm như nhấp chuột, nhập liệu hoặc cuộn trang, thực hiện những hành động đó, và sau đó lặp lại chu kỳ với các ảnh chụp màn hình mới cho đến khi tác vụ được hoàn thành hoặc các giao thức an toàn kích hoạt dừng lại.
Khả năng tương tác trình duyệt toàn diện
Mô hình thể hiện tính linh hoạt đáng chú ý trong điều hướng web, có khả năng thực hiện mười ba loại hành động khác nhau phản ánh hành vi duyệt web của con người. Những hành động này bao gồm mở trang web, điền biểu mẫu, nhấp nút, chọn menu thả xuống, kéo thả các mục, cuộn qua nội dung và duy trì ngữ cảnh qua nhiều tương tác trang. Google đã tối ưu hóa mô hình đặc biệt cho môi trường trình duyệt trước tiên, mặc dù các thử nghiệm ban đầu cho thấy kết quả đầy hứa hẹn trên giao diện người dùng di động.
Các Hành Động Được Hỗ Trợ: Mô hình hiện tại hỗ trợ 13 hành động giao diện người dùng khác nhau bao gồm nhấp chuột, nhập liệu, cuộn trang, di chuột, mở menu thả xuống, kéo thả các mục và điều hướng URL
Chỉ số hiệu suất vượt trội
Theo thử nghiệm nội bộ của Google , mô hình Gemini 2.5 Computer Use vượt trội hơn các giải pháp cạnh tranh trên nhiều tiêu chuẩn ngành. Mô hình dẫn đầu trong các đánh giá kiểm soát trình duyệt bao gồm Online-Mind2Web , WebVoyager và AndroidWorld trong khi duy trì độ trễ thấp đáng chú ý trong môi trường thử nghiệm của Browserbase . Lợi thế hiệu suất này trở nên đặc biệt có giá trị cho các ứng dụng thời gian thực như điều hướng bảng điều khiển tài khoản phức tạp hoặc đặt chỗ du lịch nơi tốc độ và độ chính xác là quan trọng.
Hiệu suất Benchmark: Dẫn đầu trong các benchmark Online-Mind2Web , WebVoyager và AndroidWorld trong khi vẫn duy trì độ trễ thấp hơn so với các giải pháp cạnh tranh
Khung an toàn mạnh mẽ
Google đã triển khai các biện pháp an toàn toàn diện hoạt động như các thành phần tích hợp thay vì các phần bổ sung tùy chọn cho hệ thống. Mỗi hành động được đề xuất đều trải qua quá trình xem xét bởi một dịch vụ an toàn chuyên dụng trước khi thực hiện, cho phép các nhà phát triển hạn chế một số hành động hoặc yêu cầu xác nhận rõ ràng từ người dùng đối với các tác vụ có rủi ro cao như giao dịch tài chính hoặc các hoạt động quan trọng của hệ thống. Những biện pháp bảo vệ này giúp ngăn chặn các agent vô tình gây ra thiệt hại trong khi duy trì tính linh hoạt hoạt động cho các trường hợp sử dụng hợp pháp.
Tính năng An toàn: Đánh giá dịch vụ an toàn từng bước, hạn chế hành động có thể cấu hình bởi nhà phát triển, yêu cầu xác nhận của người dùng đối với các tác vụ có rủi ro cao
Ứng dụng thực tế và tích hợp
Một số nhóm của Google đã sử dụng mô hình trong môi trường sản xuất, bao gồm các tính năng Search AI Mode , Firebase Testing Agent và các sáng kiến Project Mariner . Công nghệ này cho phép tự động hóa quy trình làm việc và các công cụ trợ lý có thể hoạt động sau màn hình đăng nhập nơi các API truyền thống không tồn tại, mở ra khả năng tự động hóa các quy trình nhiều bước phức tạp trên nhiều nền tảng web khác nhau.
Truy cập và triển khai cho nhà phát triển
Các nhà phát triển có thể bắt đầu thử nghiệm với mô hình Gemini 2.5 Computer Use thông qua các nền tảng Google AI Studio và Vertex AI . Google cung cấp hỗ trợ toàn diện bao gồm các cuộc trình diễn được lưu trữ qua Browserbase , các vòng lặp agent mẫu để tham khảo và tài liệu chi tiết cho việc triển khai cục bộ sử dụng Playwright . Công ty nhấn mạnh tầm quan trọng của việc thử nghiệm kỹ lưỡng trước khi triển khai các agent trong môi trường sản xuất, xét đến bản chất mạnh mẽ của công nghệ này.