OpenAI vừa công bố Operator, tác nhân AI đầu tiên có khả năng tự động hóa tác vụ phức tạp trên website. Mục tiêu là giúp người dùng tiết kiệm thời gian đáng kể cho đặt chỗ nhà hàng, mua sắm trực tuyến, hay đặt vé du lịch.
Các hành động nhạy cảm có thể yêu cầu chấp thuận. Trên website nhạy cảm như email, Operator đòi hỏi giám sát chủ động để xử lý lỗi. Do đó, Operator chưa hỗ trợ gửi email/xóa sự kiện lịch. Tác vụ tự động hóa thuộc danh mục Giao hàng, Ăn uống, Mua sắm, Du lịch. Giải thích hành động hiển thị khi Operator hoạt động.
OpenAI Operator đang tự động đặt chỗ trên trang TripAdvisor, minh họa khả năng tương tác web của tác nhân AI
Operator sử dụng mô hình Computer-Using Agent (CUA), huấn luyện tương tác trực tiếp với giao diện người dùng (frontend) của website qua trình duyệt web chuyên dụng, không dùng API. OpenAI khẳng định Operator tôn trọng điều khoản dịch vụ của các đối tác như DoorDash, eBay, Instacart, Priceline, StubHub, Uber.
Tuy nhiên, OpenAI không kỳ vọng CUA hoạt động 100% đáng tin cậy. Tài liệu hỗ trợ thừa nhận: “Operator không thể xử lý đáng tin cậy nhiều tác vụ phức tạp/chuyên biệt” (ví dụ: tạo trình chiếu, quản lý lịch phức tạp, tương tác giao diện tùy chỉnh). Operator còn giới hạn sử dụng hàng ngày, tần suất, thất bại với CAPTCHA, khó điều hướng giao diện web phức tạp.
Hiện Operator là bản xem trước nghiên cứu, dành cho người đăng ký gói ChatGPT Pro ($200/tháng) tại Hoa Kỳ qua operator.chatgpt.com. OpenAI sẽ mở rộng sang các gói khác và nhiều quốc gia/ngôn ngữ, nhưng CEO Sam Altman cho biết “Châu Âu sẽ mất một thời gian”.
Trước đây, OpenAI từng có tự động hóa đơn giản trong ChatGPT. Đối thủ Google cũng ra mắt tác nhân AI Project Mariner (11/2024), tiện ích mở rộng Chrome thử nghiệm điền biểu mẫu.
AI Agent là bước tiến logic tiếp theo của cách mạng AI, hứa hẹn sử dụng web thay mặt người dùng. Tuy nhiên, tiện ích của chúng vẫn là dấu hỏi do đang thử nghiệm, cần cải thiện độ tin cậy để được sử dụng rộng rãi.