Physical Intelligence vừa công bố nghiên cứu về mô hình π0.7, đánh dấu bước tiến quan trọng trong việc tạo ra một “bộ não” robot đa năng. Trong một thử nghiệm thực tế, robot đã tự tìm cách sử dụng một chiếc nồi chiên không dầu dù dữ liệu huấn luyện trực tiếp về thiết bị này gần như không tồn tại. Hệ thống chỉ có hai mẩu thông tin rời rạc từ trước: một robot khác đóng nắp nồi và một robot đặt chai nhựa vào bên trong.
Khả năng này được gọi là tổng quát hóa thành phần (compositional generalization), cho phép robot kết hợp các kỹ năng đã học từ nhiều ngữ cảnh khác nhau để giải quyết vấn đề mới. Thay vì phải học thuộc lòng từng thao tác cụ thể cho mỗi nhiệm vụ, π0.7 có thể suy luận dựa trên dữ liệu tiền huấn luyện từ web và kinh nghiệm sẵn có. Điều này giúp robot vượt qua giới hạn của phương pháp huấn luyện truyền thống vốn đòi hỏi lượng dữ liệu khổng lồ cho từng kịch bản riêng biệt.
Điểm đặc biệt của mô hình này là khả năng tiếp nhận hướng dẫn bằng ngôn ngữ tự nhiên. Khi gặp khó khăn, con người có thể “huấn luyện” robot theo thời gian thực tương tự như cách chỉ dẫn cho một nhân viên mới. Chẳng hạn, tỉ lệ thành công khi sử dụng nồi chiên không dầu đã tăng từ 5% lên 95% chỉ sau 30 phút tinh chỉnh cách đặt lệnh (prompt engineering), thay vì phải thu thập thêm dữ liệu hay đào tạo lại toàn bộ mô hình.
| Tiêu chí | Mô hình chuyên biệt (Specialist) | Mô hình π0.7 (Generalist) |
|---|---|---|
| Phạm vi nhiệm vụ | Chỉ thực hiện một việc cố định | Đa năng, thực hiện nhiều việc |
| Khả năng học mới | Cần dữ liệu huấn luyện mới | Tự tổng hợp từ kỹ năng đã có |
| Tương tác | Lập trình cứng | Chỉ dẫn bằng ngôn ngữ tự nhiên |
| Hiệu suất | Cao trong phạm vi hẹp | Tương đương mô hình chuyên biệt |
Các nhà khoa học tại Physical Intelligence thừa nhận họ thực sự bất ngờ trước khả năng tự xoay xở của hệ thống. Sergey Levine, người đồng sáng lập công ty, so sánh khoảnh khắc này với việc chứng kiến GPT-2 lần đầu tiên tạo ra những nội dung vượt ngoài mong đợi của người lập trình. Dù chưa thể thực hiện các mệnh lệnh phức tạp như “đi làm bánh mì nướng” một cách tự chủ hoàn toàn, nhưng robot đã có thể hoàn thành nếu được hướng dẫn từng bước nhỏ như mở nắp hay nhấn nút.
Sự phát triển này cho thấy AI trong lĩnh vực robot đang tiến gần đến điểm bùng phát, nơi khả năng của chúng tăng trưởng theo cấp số nhân so với lượng dữ liệu đầu vào. Dù các nhiệm vụ hiện tại như gấp quần áo hay pha cà phê có vẻ đơn giản, nhưng khả năng tự ứng biến trong môi trường mới chính là chìa khóa để đưa robot ra khỏi phòng thí nghiệm. Với việc huy động thành công hơn 1 tỷ USD, công ty đang củng cố vị thế dẫn đầu trong cuộc đua tạo ra những cỗ máy có khả năng tư duy như con người.
Thành tựu của π0.7 cho thấy tương lai của robot không còn nằm ở việc lập trình cứng nhắc mà là khả năng tương tác và học hỏi linh hoạt. Tuy vẫn còn những hạn chế về tính tự chủ hoàn toàn trong các tác vụ đa bước, nhưng hướng đi này mở ra triển vọng về những hệ thống robot có thể triển khai nhanh chóng trong mọi môi trường sản xuất và đời sống. Các doanh nghiệp và nhà đầu tư cần theo dõi sát sao tiến trình này, bởi đây là nền tảng cho sự thay đổi căn bản về năng suất lao động trong tương lai gần.

