Cộng đồng công nghệ đang sôi động với các cuộc thảo luận về phương pháp tối ưu để xây dựng các AI agent có thể điều khiển máy tính trực tiếp. Cuộc trò chuyện này trở nên sôi nổi hơn sau khi giới thiệu Archon, một hệ thống sử dụng GPT-5 để cho phép điều khiển máy tính bằng ngôn ngữ tự nhiên thông qua kiến trúc phân cấp kết hợp các mô hình lý luận lớn với các thành phần thực thi chuyên biệt.
Kiến trúc Hệ thống Archon
- Thành phần Lý luận: GPT-5 cho việc lập kế hoạch chiến lược và ra quyết định
- Thành phần Thực thi: Mô hình dựa trên 7B Qwen-2.5-VL cho các tương tác GUI chính xác
- Phương pháp Huấn luyện: GRPO (Group Relative Policy Optimization) cho việc định vị GUI
- Giao diện: Thanh nhập liệu ngôn ngữ tự nhiên cho hệ thống Mac/Windows
- Phương pháp tiếp cận: Phân tách phân cấp giữa "làm gì" và "nhấp vào đâu"
Các phương pháp kiến trúc kỹ thuật thu hút sự quan tâm của nhà phát triển
Cộng đồng đặc biệt quan tâm đến việc thảo luận chi tiết triển khai kỹ thuật của các hệ thống điều khiển máy tính. Các nhà phát triển đang tìm kiếm hướng dẫn để sao chép chức năng tương tự, với sự quan tâm đặc biệt đến thành phần executor dựa trên 7B Qwen-2.5-VL xử lý việc định vị GUI thông qua fine-tuning GRPO. Sự tò mò kỹ thuật này phản ánh khả năng tiếp cận ngày càng tăng của các công cụ cần thiết để xây dựng những hệ thống như vậy tại nhà.
Phương pháp phân cấp—nơi một mô hình xử lý lý luận chiến lược trong khi mô hình khác thực hiện các hành động chính xác—đã tạo ra nhiều thảo luận đáng kể về sự đánh đổi hiệu quả. Một số thành viên cộng đồng đặt câu hỏi liệu phương pháp thực thi dựa trên transformer này có tối ưu hay không, đề xuất rằng các mô hình machine learning trực tiếp hơn cho việc lập kế hoạch chuyển động có thể mang lại hiệu suất tốt hơn so với điều khiển đầu vào dựa trên lý luận.
Chi Tiết Triển Khai Kỹ Thuật
- Xử Lý Thị Giác: Vision Transformer ( ViT ) có độ phân giải động
- Hệ Thống Phần Thưởng: Phần thưởng nhị phân (1 cho việc nhấp chuột thành công vào phần tử, 0 cho việc bỏ lỡ)
- Tối Ưu Hóa: Phương pháp dựa trên patch để sử dụng hiệu quả các token thị giác
- Hiệu Suất: Tính toán thời gian thực với xử lý thích ứng
- Dữ Liệu Huấn Luyện: Tạo dữ liệu tổng hợp với tăng cường quỹ đạo
Tối ưu hóa hiệu suất và ứng dụng thực tế
Phản hồi từ cộng đồng làm nổi bật những cân nhắc quan trọng về lựa chọn demo và tối ưu hóa hiệu suất. Các nhà phê bình lưu ý rằng các demo hiện tại có thể không thể hiện hết tiềm năng của những hệ thống này, đặc biệt trong các tình huống mà agent có thể lập kế hoạch nhiều bước trước thay vì yêu cầu vòng lặp phản hồi liên tục. Quan sát này chỉ ra sự khác biệt giữa các tác vụ duyệt web cần xác minh thường xuyên và các tương tác phần mềm có thể dự đoán được có thể hưởng lợi từ việc lập kế hoạch theo lô.
Cuộc thảo luận cũng tiết lộ sự quan tâm đến các tối ưu hóa chuyên biệt cho các giao diện khác nhau. Trong khi phương pháp dựa trên tọa độ chung cung cấp khả năng tương thích rộng, các nhà phát triển nhận ra rằng việc triển khai dành riêng cho trình duyệt sử dụng các phần tử DOM có thể giảm overhead và cải thiện hiệu suất cho các tác vụ dựa trên web.
Tầm nhìn tương lai: Môi trường máy tính ưu tiên Agent
Có lẽ cuộc thảo luận cộng đồng hấp dẫn nhất tập trung vào những tác động dài hạn của AI điều khiển máy tính. Các nhà phát triển đang hình dung những mô hình máy tính hoàn toàn mới được thiết kế chủ yếu cho AI agent thay vì người dùng con người. Khái niệm này thách thức những giả định cơ bản về thiết kế giao diện và kiến trúc hệ thống.
Bạn mất đi rất nhiều khi phải thích ứng với ergonomics của con người.
Cộng đồng thấy những kết nối tiềm năng giữa AI điều khiển máy tính và cải thiện khả năng tiếp cận. Vì những hệ thống này có thể hưởng lợi từ cùng những accessibility tree được sử dụng bởi screen reader, có sự nhận thức ngày càng tăng rằng việc cải thiện khả năng tiếp cận phần mềm có thể tạo ra một chu trình tích cực mang lại lợi ích cho cả người dùng khuyết tật và AI agent.
Tiềm năng tích hợp quy trình làm việc rộng hơn
Các thành viên cộng đồng đặc biệt hào hứng về khả năng quy trình làm việc end-to-end mà những hệ thống này mang lại. Thay vì chờ đợi từng nhà cung cấp phần mềm tạo ra các tích hợp AI, các computer control agent có thể làm việc với bất kỳ phần mềm hiện có nào bằng cách tuân theo cùng những hướng dẫn sử dụng và giao diện mà con người sử dụng. Phương pháp này cung cấp khả năng quan sát chưa từng có, vì toàn bộ luồng tương tác có thể được ghi lại và xem xét.
Cuộc thảo luận tiết lộ sự lạc quan về việc giảm độ phức tạp của các tích hợp AI tùy chỉnh trên các hệ sinh thái phần mềm khác nhau. Khi những khả năng điều khiển máy tính chung này trưởng thành, chúng có thể giảm nhu cầu về các tích hợp chuyên biệt trong khi cung cấp khả năng minh bạch và debug tốt hơn so với các phương pháp dựa trên API truyền thống.
Tham khảo: Teaching GPT-5 to Use a Computer