Gemini 2.5: AI Google lướt web như bạn

Google vừa giới thiệu một bước tiến đáng chú ý trong lĩnh vực trí tuệ nhân tạo với Gemini 2.5 Computer Use, một mô hình AI được thiết kế để tương tác và điều hướng web một cách tự nhiên, tương tự như cách con người thực hiện. Điểm khác biệt cốt lõi nằm ở khả năng của mô hình này trong việc phân tích yêu cầu của người dùng và thực thi các tác vụ phức tạp trực tiếp trên giao diện trình duyệt. Điều này mở ra tiềm năng ứng dụng rộng lớn, đặc biệt trong các trường hợp cần tự động hóa các thao tác trên các nền tảng không có giao diện lập trình ứng dụng (API) hoặc kết nối trực tiếp.

Mô hình mới của Google được trang bị khả năng hiểu và lý luận dựa trên hình ảnh, cho phép nó diễn giải các yếu tố trên trang web và thực hiện hành động, chẳng hạn như điền và gửi biểu mẫu trực tuyến. Khả năng này không chỉ hữu ích cho việc kiểm thử giao diện người dùng (UI testing) mà còn hỗ trợ những người dùng không có kiến thức chuyên sâu về kỹ thuật. Các phiên bản tiền nhiệm của Gemini đã được triển khai trong các tính năng AI Mode và dự án nghiên cứu Project Mariner, nơi các tác nhân AI có thể tự động thực hiện các công việc như thêm sản phẩm vào giỏ hàng dựa trên danh sách nguyên liệu.

Sự ra mắt này diễn ra ngay sau khi OpenAI công bố các ứng dụng mới cho ChatGPT và Anthropic cũng đã phát hành phiên bản Claude AI có khả năng “sử dụng máy tính” từ năm ngoái, cho thấy cuộc đua phát triển tác nhân AI ngày càng nóng lên. Google đã chia sẻ các video demo cho thấy Gemini 2.5 Computer Use thực hiện các tác vụ, mặc dù các video này đã được tăng tốc gấp ba lần. Google tuyên bố mô hình này vượt trội hơn các giải pháp hàng đầu trên nhiều bài kiểm tra hiệu năng trên cả nền tảng web và di động.

Khác biệt với các đối thủ cạnh tranh, Gemini 2.5 Computer Use chỉ giới hạn quyền truy cập vào trình duyệt, thay vì toàn bộ môi trường máy tính. Hiện tại, mô hình này hỗ trợ 13 hành động cơ bản, bao gồm mở trình duyệt, nhập văn bản, và kéo thả các yếu tố. Gemini 2.5 Computer Use đã có sẵn cho các nhà phát triển thông qua Google AI Studio và Vertex AI, đồng thời có một bản demo trên Browserbase để người dùng trải nghiệm khả năng tự động hóa các tác vụ như chơi game hoặc tìm kiếm các cuộc tranh luận trên Hacker News.

Tóm lại, Gemini 2.5 Computer Use đánh dấu một bước tiến quan trọng trong việc đưa AI đến gần hơn với trải nghiệm người dùng thực tế trên môi trường web. Khả năng tự động hóa các tác vụ phức tạp thông qua giao diện trình duyệt mở ra nhiều cơ hội mới cho cá nhân và doanh nghiệp. Các nhà phát triển nên khám phá tiềm năng của mô hình này để tạo ra các ứng dụng và dịch vụ thông minh hơn, mang lại trải nghiệm liền mạch và hiệu quả cho người dùng cuối.

vMixMC