Trong nhiều năm qua, các CEO của những tập đoàn công nghệ lớn đã không ngừng vẽ ra viễn cảnh về những AI agent có khả năng tự động sử dụng các ứng dụng phần mềm để hoàn thành tác vụ cho con người. Tuy nhiên, nếu bạn thử trải nghiệm các AI agent tiêu dùng hiện nay, dù là ChatGPT Agent của OpenAI hay Comet của Perplexity, bạn sẽ nhanh chóng nhận ra công nghệ này vẫn còn nhiều hạn chế. Để các AI agent trở nên mạnh mẽ và đáng tin cậy hơn, có lẽ chúng ta cần một bộ kỹ thuật mới mà ngành công nghiệp này vẫn đang trong quá trình khám phá.
Một trong những kỹ thuật đầy hứa hẹn đó là việc mô phỏng cẩn thận các không gian làm việc nơi các agent có thể được huấn luyện thực hiện các tác vụ đa bước – hay còn gọi là môi trường huấn luyện tăng cường (RL environments). Tương tự như cách các bộ dữ liệu được gắn nhãn đã thúc đẩy làn sóng AI trước đây, các môi trường RL đang dần trở thành một yếu tố then chốt trong sự phát triển của các agent hiện đại. Các nhà nghiên cứu AI, nhà sáng lập và nhà đầu tư tại Thung lũng Silicon đều đồng tình rằng các phòng thí nghiệm AI hàng đầu đang có nhu cầu rất lớn về các môi trường RL, và không thiếu các startup đang hy vọng cung cấp giải pháp này.
Jennifer Li, đối tác chung tại Andreessen Horowitz, chia sẻ: “Tất cả các phòng thí nghiệm AI lớn đều đang tự xây dựng các môi trường RL nội bộ. Nhưng như bạn có thể hình dung, việc tạo ra các bộ dữ liệu này rất phức tạp, vì vậy các phòng thí nghiệm AI cũng đang tìm kiếm các nhà cung cấp bên thứ ba có thể tạo ra các môi trường và đánh giá chất lượng cao. Mọi người đều đang chú ý đến lĩnh vực này.” Sự thúc đẩy đối với các môi trường RL đã tạo ra một thế hệ startup mới được cấp vốn dồi dào, như Mechanize và Prime Intellect, với mục tiêu dẫn đầu không gian này. Trong khi đó, các công ty gắn nhãn dữ liệu lớn như Mercor và Surge cũng đang đầu tư mạnh vào các môi trường RL để bắt kịp sự dịch chuyển của ngành từ dữ liệu tĩnh sang các mô phỏng tương tác. Thậm chí, theo The Information, các lãnh đạo tại Anthropic đã thảo luận về việc chi hơn 1 tỷ USD cho các môi trường RL trong năm tới. Hy vọng của các nhà đầu tư và nhà sáng lập là một trong những startup này sẽ trở thành “Scale AI cho các môi trường,” ám chỉ đến đế chế gắn nhãn dữ liệu trị giá 29 tỷ USD đã làm nên thời đại chatbot. Câu hỏi đặt ra là liệu các môi trường RL có thực sự đẩy ranh giới của tiến bộ AI hay không.
RL environment là gì và tại sao lại quan trọng?
Về cốt lõi, RL environment là những “sân tập” mô phỏng những gì một AI agent sẽ thực hiện trong một ứng dụng phần mềm thực tế. Một nhà sáng lập đã mô tả việc xây dựng chúng giống như “tạo ra một trò chơi điện tử rất nhàm chán.” Ví dụ, một môi trường có thể mô phỏng trình duyệt Chrome và giao cho một AI agent nhiệm vụ mua một đôi tất trên Amazon. Agent sẽ được đánh giá dựa trên hiệu suất của nó và nhận tín hiệu thưởng khi hoàn thành thành công (trong trường hợp này là mua được một đôi tất ưng ý).
Mặc dù một tác vụ như vậy nghe có vẻ tương đối đơn giản, nhưng có rất nhiều điểm mà một AI agent có thể mắc lỗi. Nó có thể bị lạc khi điều hướng các menu thả xuống của trang web, hoặc mua quá nhiều tất. Và bởi vì các nhà phát triển không thể dự đoán chính xác những sai lầm mà một agent sẽ mắc phải, bản thân môi trường phải đủ mạnh mẽ để nắm bắt mọi hành vi không mong muốn và vẫn cung cấp phản hồi hữu ích. Điều đó làm cho việc xây dựng các môi trường phức tạp hơn nhiều so với một bộ dữ liệu tĩnh. Một số môi trường khá phức tạp, cho phép các AI agent sử dụng công cụ, truy cập internet hoặc sử dụng các ứng dụng phần mềm khác nhau để hoàn thành một tác vụ nhất định. Các môi trường khác lại hẹp hơn, nhằm giúp agent học các tác vụ cụ thể trong các ứng dụng phần mềm doanh nghiệp.
Mặc dù các môi trường RL đang là xu hướng nóng ở Thung lũng Silicon hiện nay, nhưng kỹ thuật này đã có nhiều tiền lệ. Một trong những dự án đầu tiên của OpenAI vào năm 2016 là xây dựng “RL Gyms,” khá tương đồng với khái niệm môi trường hiện đại. Cùng năm đó, hệ thống AI AlphaGo của Google DeepMind đã đánh bại nhà vô địch cờ vây thế giới. Nó cũng sử dụng các kỹ thuật huấn luyện tăng cường (Reinforcement Learning) trong một môi trường mô phỏng. Điều độc đáo về các môi trường ngày nay là các nhà nghiên cứu đang cố gắng xây dựng AI agent sử dụng máy tính với các mô hình transformer lớn. Không giống như AlphaGo, vốn là một hệ thống AI chuyên biệt hoạt động trong môi trường đóng, các AI agent ngày nay được huấn luyện để có khả năng tổng quát hơn. Các nhà nghiên cứu AI ngày nay có một điểm khởi đầu mạnh mẽ hơn, nhưng cũng có một mục tiêu phức tạp hơn, nơi nhiều điều có thể sai.
Cuộc đua khốc liệt và những người chơi lớn
Lĩnh vực này đang trở nên vô cùng sôi động. Các công ty gắn nhãn dữ liệu như Scale AI, Surge và Mercor đang nỗ lực đáp ứng nhu cầu và xây dựng các môi trường RL. Những công ty này có nhiều tài nguyên hơn so với nhiều startup trong lĩnh vực này, cũng như mối quan hệ sâu rộng với các phòng thí nghiệm AI. Edwin Chen, CEO của Surge, chia sẻ rằng ông gần đây đã thấy “sự gia tăng đáng kể” về nhu cầu đối với các môi trường RL trong các phòng thí nghiệm AI. Surge – công ty được cho là đã tạo ra doanh thu 1,2 tỷ USD vào năm ngoái từ việc hợp tác với các phòng thí nghiệm AI như OpenAI, Google, Anthropic và Meta – gần đây đã thành lập một tổ chức nội bộ mới chuyên trách xây dựng các môi trường RL.
Theo sát Surge là Mercor, một startup được định giá 10 tỷ USD, cũng đã làm việc với OpenAI, Meta và Anthropic. Mercor đang thuyết phục các nhà đầu tư về hoạt động kinh doanh xây dựng các môi trường RL cho các tác vụ chuyên biệt theo lĩnh vực như lập trình, chăm sóc sức khỏe và luật pháp. Brendan Foody, CEO của Mercor, cho biết “ít người hiểu được cơ hội lớn đến mức nào xung quanh các môi trường RL.” Scale AI từng thống trị không gian gắn nhãn dữ liệu, nhưng đã mất dần vị thế kể từ khi Meta đầu tư 14 tỷ USD và tuyển dụng CEO của họ. Kể từ đó, Google và OpenAI đã ngừng sử dụng Scale AI làm nhà cung cấp dữ liệu, và startup này thậm chí còn đối mặt với cạnh tranh trong công việc gắn nhãn dữ liệu ngay cả trong Meta. Tuy nhiên, Scale vẫn đang cố gắng thích nghi và xây dựng các môi trường. Chetan Rane, người đứng đầu sản phẩm của Scale AI cho các agent và môi trường RL, nói: “Đây chỉ là bản chất của hoạt động kinh doanh mà Scale AI đang tham gia. Scale đã chứng minh khả năng thích nghi nhanh chóng của mình. Chúng tôi đã làm điều này trong những ngày đầu của xe tự lái, đơn vị kinh doanh đầu tiên của chúng tôi. Khi ChatGPT ra đời, Scale AI đã thích nghi với điều đó. Và bây giờ, một lần nữa, chúng tôi đang thích nghi với các không gian tiên phong mới như agent và môi trường.”
Một số người chơi mới đang tập trung hoàn toàn vào các môi trường ngay từ đầu. Trong số đó có Mechanize, một startup được thành lập khoảng sáu tháng trước với mục tiêu táo bạo là “tự động hóa tất cả các công việc.” Tuy nhiên, đồng sáng lập Matthew Barnett chia sẻ rằng công ty của ông đang bắt đầu với các môi trường RL cho các AI coding agent. Mechanize đặt mục tiêu cung cấp cho các phòng thí nghiệm AI một số lượng nhỏ các môi trường RL mạnh mẽ, thay vì các công ty dữ liệu lớn hơn tạo ra nhiều loại môi trường RL đơn giản. Đến mức, startup này đang đề nghị các kỹ sư phần mềm mức lương 500.000 USD để xây dựng các môi trường RL – cao hơn nhiều so với mức lương mà một nhà thầu theo giờ có thể kiếm được khi làm việc tại Scale AI hoặc Surge. Mechanize đã làm việc với Anthropic về các môi trường RL, theo hai nguồn tin thân cận.
Các startup khác đang đặt cược rằng các môi trường RL sẽ có ảnh hưởng bên ngoài các phòng thí nghiệm AI. Prime Intellect – một startup được hỗ trợ bởi nhà nghiên cứu AI Andrej Karpathy, Founders Fund và Menlo Ventures – đang nhắm mục tiêu đến các nhà phát triển nhỏ hơn với các môi trường RL của mình. Tháng trước, Prime Intellect đã ra mắt một trung tâm môi trường RL, với mục tiêu trở thành “Hugging Face cho RL environments.” Ý tưởng là cung cấp cho các nhà phát triển mã nguồn mở quyền truy cập vào các tài nguyên tương tự mà các phòng thí nghiệm AI lớn có, và bán cho các nhà phát triển đó quyền truy cập vào tài nguyên tính toán (GPU) trong quá trình này. Huấn luyện các agent có khả năng tổng quát trong các môi trường RL có thể tốn kém hơn về mặt tính toán so với các kỹ thuật huấn luyện AI trước đây.
Liệu RL environments có thể mở rộng quy mô?
Câu hỏi còn bỏ ngỏ xung quanh các môi trường RL là liệu kỹ thuật này có thể mở rộng quy mô như các phương pháp huấn luyện AI trước đây hay không. Huấn luyện tăng cường (Reinforcement Learning) đã thúc đẩy một số bước nhảy vọt lớn nhất trong AI trong năm qua, bao gồm các mô hình như o1 của OpenAI và Claude Opus 4 của Anthropic. Đây là những đột phá đặc biệt quan trọng vì các phương pháp được sử dụng trước đây để cải thiện các mô hình AI hiện đang cho thấy lợi nhuận giảm dần.
Các môi trường là một phần trong canh bạc lớn hơn của các phòng thí nghiệm AI vào RL, mà nhiều người tin rằng sẽ tiếp tục thúc đẩy tiến bộ khi họ bổ sung thêm dữ liệu và tài nguyên tính toán vào quá trình này. Một số nhà nghiên cứu OpenAI đứng sau o1 trước đây đã chia sẻ rằng công ty ban đầu đầu tư vào các mô hình suy luận AI – được tạo ra thông qua các khoản đầu tư vào RL và tính toán thời gian thử nghiệm – vì họ nghĩ rằng nó sẽ mở rộng quy mô tốt. Cách tốt nhất để mở rộng quy mô RL vẫn chưa rõ ràng, nhưng các môi trường dường như là một ứng cử viên đầy hứa hẹn. Thay vì chỉ thưởng cho chatbot vì các phản hồi văn bản, chúng cho phép các agent hoạt động trong các mô phỏng với công cụ và máy tính theo ý của chúng. Điều đó tốn nhiều tài nguyên hơn, nhưng có khả năng mang lại nhiều phần thưởng hơn.
Tuy nhiên, một số người tỏ ra hoài nghi rằng tất cả các môi trường RL này sẽ thành công. Ross Taylor, cựu trưởng nhóm nghiên cứu AI của Meta và đồng sáng lập General Reasoning, cho rằng các môi trường RL dễ bị “reward hacking” – một quá trình mà các mô hình AI gian lận để nhận được phần thưởng mà không thực sự hoàn thành nhiệm vụ. Ông nói: “Tôi nghĩ mọi người đang đánh giá thấp mức độ khó khăn trong việc mở rộng quy mô môi trường. Ngay cả những môi trường [RL] có sẵn tốt nhất cũng thường không hoạt động nếu không có sự sửa đổi nghiêm túc.”
Sherwin Wu, Trưởng bộ phận Kỹ thuật cho hoạt động kinh doanh API của OpenAI, đã chia sẻ trong một podcast gần đây rằng ông “không mấy lạc quan” về các startup môi trường RL. Wu lưu ý rằng đây là một không gian rất cạnh tranh, nhưng cũng vì nghiên cứu AI đang phát triển quá nhanh nên rất khó để phục vụ tốt các phòng thí nghiệm AI. Karpathy, một nhà đầu tư vào Prime Intellect và từng gọi các môi trường RL là một đột phá tiềm năng, cũng đã lên tiếng cảnh báo về không gian RL rộng lớn hơn. Trong một bài đăng trên X, ông đã nêu lên những lo ngại về việc liệu có thể khai thác thêm bao nhiêu tiến bộ AI từ RL. Karpathy nói: “Tôi lạc quan về các môi trường và tương tác tác nhân nhưng tôi không mấy lạc quan về huấn luyện tăng cường nói riêng.”