Trình duyệt Atlas của OpenAI Đưa AI Vào Vai Trò Chủ Động Thực Hiện Tác Vụ Web

Nhóm biên tập BigGo
Trình duyệt Atlas của OpenAI Đưa AI Vào Vai Trò Chủ Động Thực Hiện Tác Vụ Web

Trong một bước tiến quan trọng nhằm định nghĩa lại mối quan hệ của chúng ta với internet, OpenAI đã ra mắt Atlas, một trình duyệt mới được trang bị trí tuệ nhân tạo hướng tới việc vượt ra ngoài tìm kiếm đơn thuần để bước vào lĩnh vực hoàn thành tác vụ tự động. Khả dụng ban đầu cho macOS, Atlas giới thiệu chế độ Tác nhân mạnh mẽ, cho phép ChatGPT điều hướng các trang web, nhấp vào nút và thực hiện các hành động phức tạp, nhiều bước thay mặt người dùng. Sự ra mắt này báo hiệu một tương lai nơi AI không chỉ hỗ trợ duyệt web mà còn chủ động quản lý nó, một tầm nhìn đi kèm với cả lời hứa hẹn to lớn và những câu hỏi đáng chú ý về quyền riêng tư và độ tin cậy.

Bình Minh Của Duyệt Web Tác Nhân

Atlas đại diện cho một sự thay đổi cơ bản trong thiết kế trình duyệt. Thay vì chỉ thêm một chatbot vào một trình duyệt thông thường, OpenAI đã xây dựng toàn bộ trải nghiệm duyệt web xung quanh ChatGPT. Kết quả là một hệ thống nơi AI liên tục nhận thức được nội dung bạn đang xem và sẵn sàng hành động. Cốt lõi của chức năng mới này là chế độ Tác nhân, có sẵn cho người dùng ChatGPT Plus và Pro. Tính năng này cho phép AI trực tiếp kiểm soát trình duyệt, di chuyển con trỏ, tương tác với các phần tử trang và thực thi các tác vụ từ đầu đến cuối. Trong buổi giới thiệu sản phẩm, Giám đốc điều hành OpenAI Sam Altman đã trình diễn khả năng này bằng cách để Tác nhân đọc một công thức nấu ăn và sau đó tự động đặt hàng tất cả các nguyên liệu cần thiết cho tám người từ một dịch vụ giao hàng tạp hóa.

Các Tính Năng Cốt Lõi của Atlas:

  • AI Co-pilot: Thanh công cụ ChatGPT luôn sẵn sàng để tóm tắt nội dung, trả lời câu hỏi hoặc giúp chỉnh sửa tài liệu dựa trên trang web hiện tại.
  • Browser Memory: Ghi nhớ ngữ cảnh duyệt web của bạn, cho phép thực hiện các yêu cầu bằng ngôn ngữ tự nhiên như "cho tôi xem danh sách xe Audi màu xanh lá mà tôi đã xem tuần trước."
  • Agent Mode: Cho phép ChatGPT kiểm soát trình duyệt để thực hiện các tác vụ nhiều bước như điền biểu mẫu trực tuyến, đặt chỗ và mua sắm trực tuyến.

Một Bài Kiểm Tra Thực Tế: AI Thực Hiện Việc Mua Sắm

Để kiểm tra công nghệ đầy tham vọng này, một phóng viên của ZDNET đã giao nhiệm vụ cho Tác nhân Atlas một công việc thực tế: đặt hàng vật tư phần cứng và thực phẩm từ Walmart để giao hàng trong ngày. Lệnh ban đầu, Hãy đặt cho tôi bột trét gỗ, keo bít có thể sơn và vít 2 inch từ Walmart, đã đưa Tác nhân vào hoạt động. Trải nghiệm là sự pha trộn giữa tự động hóa ấn tượng và những trục trặc dự kiến ở thế hệ đầu tiên. Tác nhân đã thành công trong việc điều hướng đến trang web của Walmart, tìm kiếm sản phẩm và thêm chúng vào giỏ hàng. Tuy nhiên, ban đầu nó đã vấp phải các cửa sổ bật lên và, khi chưa đăng nhập vào tài khoản, đã thiếu thông tin quan trọng như vị trí của người dùng và lịch sử mua sắm để xác định tình trạng sẵn có của sản phẩm và sở thích thương hiệu.

Tinh Chỉnh Quy Trình Với Bộ Nhớ và Ngữ Cảnh

Tiềm năng thực sự của Atlas trở nên rõ ràng hơn khi người dùng tinh chỉnh các lệnh của họ và tận dụng tính năng bộ nhớ của trình duyệt. Bằng cách hướng dẫn Tác nhân sử dụng các giao dịch mua trước đây của tôi để tìm đúng sản phẩm và thương hiệu tôi dùng, AI đã truy cập lịch sử mua hàng Walmart của người dùng, xác định chính xác các mặt hàng đã mua trước đó và điền chính xác vào giỏ hàng. Khả năng học hỏi từ lịch sử duyệt web và mua hàng của người dùng là một thành phần then chốt của Atlas, được thiết kế để tạo ra trải nghiệm cá nhân hóa và hiệu quả hơn theo thời gian. Phóng viên lưu ý rằng sau những điều chỉnh này, Tác nhân đã điều hướng toàn bộ quy trình đến màn hình thanh toán, chỉ yêu cầu sự xác nhận cuối cùng từ con người để hoàn tất việc thanh toán.

Cân Nhắc Sự Đánh Đổi: Sức Mạnh và Sự Thận Trọng

OpenAI nhận thức rõ ràng về những lo ngại đi kèm với một công cụ mạnh mẽ như vậy. Công ty này cảnh báo rõ ràng người dùng nên cân nhắc sự đánh đổi khi sử dụng chế độ Tác nhân, đặc biệt là trên các trang web nhạy cảm. Bộ nhớ trình duyệt, bao gồm lịch sử và sở thích của bạn, là riêng tư cho tài khoản của bạn và do người dùng kiểm soát. Người dùng có thể xem, lưu trữ hoặc xóa dữ liệu này. Hơn nữa, OpenAI tuyên bố rằng theo mặc định, họ không sử dụng nội dung bạn duyệt để đào tạo các mô hình của mình, mặc dù người dùng có thể chọn tham gia vào việc này. Đối với các hành động quan trọng, chẳng hạn như trên các trang web tài chính, Atlas được lập trình để tạm dừng và yêu cầu sự giám sát của người dùng trước khi tiếp tục, một biện pháp bảo vệ quan trọng cho một công nghệ thử nghiệm vốn dễ xảy ra lỗi.

Tính khả dụng & Quyền riêng tư:

  • Nền tảng ban đầu: Chỉ hỗ trợ macOS khi ra mắt.
  • Nền tảng tương lai: Hỗ trợ Windows, iOS và Android sẽ "sớm ra mắt."
  • Kiểm soát dữ liệu: Bộ nhớ trình duyệt là riêng tư và do người dùng kiểm soát. Theo mặc định, nội dung duyệt web không được sử dụng để huấn luyện các mô hình của OpenAI.
  • Yêu cầu đăng ký: Chế độ Agent khả dụng cho người đăng ký ChatGPT Plus và Pro.

Cái Nhìn Thoáng Qua Về Tương Lai Tự Động Hóa

Bất chấp những trở ngại ban đầu, bài chạy thử nghiệm thành công làm nổi bật một tương lai nơi các tác nhân AI có thể xử lý các tác vụ trực tuyến tẻ nhạt, từ mua sắm quà tặng ngày lễ đến lập kế hoạch chuyến đi phức tạp. Trải nghiệm của phóng viên, mất khoảng 10 phút từ lệnh đến gần như hoàn tất thanh toán, chứng minh một con đường cụ thể hướng tới việc tiết kiệm đáng kể thời gian và công sức cho người dùng. Khi OpenAI tiếp tục phát triển Atlas và mở rộng tính khả dụng của nó sang Windows, iOS và Android, ranh giới giữa người dùng và trợ lý sẽ tiếp tục bị xóa nhòa. Việc ra mắt Atlas không chỉ là một bản cập nhật cho trình duyệt web; đó là một bước đi táo bạo, dù còn thận trọng, vào một mô hình mới về tương tác giữa con người và máy tính.

Một ví dụ về giao diện trình duyệt hỗ trợ AI cho thấy cách Atlas hoạt động trong môi trường tìm kiếm
Một ví dụ về giao diện trình duyệt hỗ trợ AI cho thấy cách Atlas hoạt động trong môi trường tìm kiếm