Google đã phát hành mô hình Gemini 2.5 Computer Use , được thiết kế để tương tác với giao diện người dùng thông qua ảnh chụp màn hình và nhấp chuột dựa trên tọa độ. Mặc dù công nghệ này đại diện cho một bước tiến đáng kể trong tự động hóa AI, các thử nghiệm ban đầu cho thấy kết quả trái chiều, làm nổi bật cả khả năng ấn tượng lẫn những hạn chế cơ bản.
Mô hình hoạt động bằng cách phân tích ảnh chụp màn hình của giao diện máy tính và tạo ra các hành động như nhấp chuột hoặc gõ phím tại các tọa độ cụ thể. Khác với các công cụ tự động hóa trình duyệt khác sử dụng dữ liệu có cấu trúc từ các trang web, phương pháp này dựa hoàn toàn vào khả năng hiểu thị giác, tương tự như cách con người tương tác với máy tính.
Khả năng của Mô hình:
- Tối ưu hóa chính: Trình duyệt web
- Hỗ trợ phụ: Điều khiển giao diện người dùng di động
- Hỗ trợ hạn chế: Điều khiển cấp hệ điều hành máy tính để bàn
- Yêu cầu đầu vào: Yêu cầu của người dùng, ảnh chụp màn hình, lịch sử hành động
- Đầu ra: Các hành động giao diện người dùng (nhấp chuột, gõ phím) với các yêu cầu xác nhận từ người dùng tùy chọn
![]() |
---|
Hình ảnh thể hiện lời chào bằng nhiều ngôn ngữ khác nhau, phản ánh sự giao tiếp toàn cầu, tương tự như cách mô hình Gemini 25 nhằm nâng cao tương tác của người dùng với các giao diện khác nhau |
Thành công với CAPTCHA che giấu vấn đề độ chính xác
Một trong những minh chứng nổi bật nhất là mô hình thành công giải quyết các thử thách reCAPTCHA của chính Google . Những người thử nghiệm ban đầu báo cáo đã chứng kiến AI điều hướng qua các biện pháp bảo mật được thiết kế đặc biệt để chặn các hệ thống tự động. Tuy nhiên, thành tích ấn tượng này tương phản rõ rệt với những khó khăn trong các tác vụ điều hướng cơ bản.
Phản hồi từ cộng đồng cho thấy các vấn đề độ chính xác đáng kể với các thao tác nhấp chuột đơn giản. Người dùng báo cáo mô hình phải mất tới 18 lần thử để nhấp vào một liên kết bình luận, với mỗi lần thử đều lệch mục tiêu chỉ vài pixel. Vấn đề độ chính xác này mở rộng sang việc điền biểu mẫu, nơi AI được báo cáo là ghi đè dữ liệu hiện có khi cố gắng điền thông tin mới trong các ứng dụng như Google Sheets .
Các vấn đề hiệu suất được báo cáo:
- Cần đến 18 lần thử để thực hiện một thao tác nhấp chuột duy nhất
- Vấn đề độ chính xác tọa độ (các cú nhấp chuột lệch khỏi mục tiêu vài pixel)
- Ghi đè dữ liệu trong các ứng dụng Google Sheets
- Tốc độ thực thi chậm trong các tình huống tương tác
- Khó khăn trong việc xử lý các cửa sổ/tab trình duyệt mới
Tốc độ và hạn chế thực tế
Tốc độ hiệu suất của mô hình đã trở thành mối quan tâm chính đối với người dùng tiềm năng. Nhiều người trong cộng đồng mô tả chu kỳ tương tác như chậm một cách đau đớn, với mỗi hành động đòi hỏi phân tích ảnh chụp màn hình, ra quyết định và thực thi trước khi chuyển sang bước tiếp theo. Điều này tạo ra trải nghiệm người dùng bực bội khi các tác vụ đơn giản mất thời gian đáng kể hơn so với thực hiện thủ công.
Phải mất gần 18 lần thử để nhấp vào liên kết bình luận trong demo HN , mỗi lần đều lệch vài pixel.
Mô hình cho thấy tiềm năng cho các tác vụ tự động hóa nền tảng nơi tốc độ ít quan trọng hơn, nhưng mức hiệu suất hiện tại khiến nó không thực tế cho hỗ trợ thời gian thực hoặc quy trình làm việc tương tác.
Thách thức áp dụng doanh nghiệp
Người dùng doanh nghiệp bày tỏ lo ngại về việc triển khai công nghệ trong môi trường sản xuất mà không có các biện pháp kiểm soát quản trị phù hợp. Khả năng vượt qua các biện pháp bảo mật như CAPTCHA của mô hình đặt ra câu hỏi về việc truy cập không mong muốn vào các hệ thống hoặc dữ liệu bị hạn chế.
Các tính năng an toàn được tích hợp vào hệ thống bao gồm dịch vụ an toàn từng bước và yêu cầu xác nhận từ người dùng cho các hành động có rủi ro cao. Tuy nhiên, việc áp dụng doanh nghiệp có thể sẽ yêu cầu các khung bảo mật bổ sung và quy trình phê duyệt trước khi triển khai rộng rãi.
Tính năng An toàn:
- Dịch vụ an toàn từng bước để đánh giá hành động
- Hướng dẫn hệ thống cho việc xử lý các hành động có rủi ro cao
- Yêu cầu xác nhận từ người dùng cho các thao tác nhạy cảm
- Đào tạo an toàn tích hợp sẵn trong mô hình
- Các điều khiển an toàn có thể cấu hình bởi nhà phát triển
Tranh luận kiến trúc kỹ thuật
Cộng đồng vẫn chia rẽ về phương pháp cơ bản sử dụng ảnh chụp màn hình so với dữ liệu có cấu trúc. Trong khi phân tích thị giác hoạt động phổ quát trên các ứng dụng khác nhau, nó hy sinh độ chính xác và hiệu quả có sẵn thông qua truy cập API trực tiếp hoặc khung khả năng tiếp cận.
Một số nhà phát triển cho rằng điều này đại diện cho phương pháp con ngựa cơ khí - sử dụng công nghệ mới để sao chép các phương pháp của con người thay vì tận dụng các giải pháp hiệu quả hơn dành riêng cho máy tính. Những người khác phản bác rằng tương tác thị giác cung cấp phương pháp phổ quát duy nhất để tự động hóa các hệ thống và ứng dụng cũ mà không có quyền truy cập API.
Mô hình hiện tại hoạt động tốt nhất với trình duyệt web và cho thấy tiềm năng cho giao diện di động, nhưng việc kiểm soát hệ điều hành máy tính để bàn vẫn chưa được tối ưu hóa. Hạn chế này giới hạn tính hữu dụng của nó cho tự động hóa quy trình làm việc toàn diện trên các nền tảng khác nhau.
Bất chấp những hạn chế hiện tại, công nghệ này chứng minh tiềm năng cho các hệ thống AI tương tác với bất kỳ giao diện thị giác nào, mở ra khả năng tự động hóa các hệ thống và quy trình làm việc trước đây không thể tiếp cận.