Tencent huấn luyện AI hiểu và chơi chiến thuật Liên Quân Mobile

Các nhà nghiên cứu của Tencent đang thử nghiệm phương pháp mới nhằm trang bị cho mô hình AI khả năng tư duy chiến thuật thông qua việc huấn luyện trên trò chơi Honor of Kings (Liên Quân Mobile tại Việt Nam). Nghiên cứu này cho thấy, trong một số điều kiện nhất định, các hệ thống AI nhỏ hơn có thể đạt hiệu suất vượt trội so với những mô hình lớn hơn nhiều.

Một khoảng trống đáng chú ý trong các AI hiện tại là phần lớn có thể chơi game nhưng không giải thích được quyết định của mình, trong khi các mô hình ngôn ngữ lại có thể thảo luận về chiến thuật nhưng gặp khó khăn trong việc thực thi. Khung “Think in Games” (TiG) được phát triển để thu hẹp khoảng cách này, kết hợp khả năng chơi game và giải thích chiến lược.

Để thực hiện các thử nghiệm, các nhà nghiên cứu đã sử dụng Honor of Kings, một trò chơi MOBA di động do Tencent phát triển. Trò chơi đòi hỏi chiến thuật phức tạp, yêu cầu sự phối hợp đồng đội giữa hai đội năm người để phá hủy trụ và kiểm soát tài nguyên. Nhóm nghiên cứu đã định nghĩa 40 hành động vĩ mô (macro actions), ví dụ như “đẩy đường trên”, “lấy rồng”, hay “phòng thủ căn cứ”. Mục tiêu là để AI chọn nước đi tốt nhất trong một tình huống cụ thể và giải thích lý do đằng sau lựa chọn đó.

Quá trình huấn luyện diễn ra trong hai giai đoạn. Đầu tiên, học có giám sát giúp AI làm quen với các cơ chế cơ bản của trò chơi. Tiếp theo, học tăng cường tinh chỉnh chiến thuật của AI, sử dụng hệ thống phần thưởng: một điểm cho nước đi đúng và không điểm cho nước đi sai.

Nhóm đã thử nghiệm nhiều mô hình ngôn ngữ, bao gồm Qwen2.5 với 7, 14 và 32 tỷ tham số, cùng với Qwen3-14B mới hơn. Để so sánh, họ đưa vào Deepseek-R1, một mô hình lớn hơn đáng kể. Phương pháp của họ kết hợp hai bước: đầu tiên là chưng cất dữ liệu huấn luyện từ Deepseek-R1, vốn đã thể hiện hiệu suất mạnh mẽ trong game. Sau đó, áp dụng Group Relative Policy Optimization (GRPO), một kỹ thuật giúp tinh chỉnh mô hình bằng cách so sánh nhiều câu trả lời được tạo ra.

Kết quả cho thấy sự khác biệt rõ rệt giữa các mô hình và phương pháp huấn luyện. Qwen3-14B đạt 90.91% quyết định chiến thuật chính xác sau 2.000 bước huấn luyện bằng học có giám sát cộng với GRPO, vượt trội hơn Deepseek-R1 chỉ đạt 86.67%. GRPO đã cải thiện đáng kể độ chính xác của mô hình. Cụ thể, Qwen-2.5-32B tăng từ 66.67% lên 86.84%, và Qwen-2.5-14B cải thiện từ 53.25% lên 83.12% sau cả hai giai đoạn. GRPO hoạt động bằng cách chuẩn hóa phần thưởng giữa các nhóm câu trả lời và tính toán lợi thế tương đối, giúp ổn định quá trình học.

Các hệ thống được huấn luyện còn có khả năng giải thích quyết định của mình. Ví dụ, AI đã xác định một trụ phòng thủ yếu là mục tiêu phù hợp và cảnh báo về khả năng bị đối phương phục kích. Các mô hình được huấn luyện trên Honor of Kings vẫn giữ được khả năng đọc văn bản, giải toán và trả lời câu hỏi thông thường.

Đội ngũ nghiên cứu nhận thấy tiềm năng ứng dụng của khung này bên ngoài lĩnh vực game, ở những lĩnh vực đòi hỏi cả tư duy chiến lược và khả năng giải thích rõ ràng. Tuy nhiên, họ lưu ý rằng kết quả phụ thuộc vào chất lượng của các mô hình ngôn ngữ cơ bản và chưa chắc phương pháp này có thể áp dụng cho các lĩnh vực khác hay không. Các dự án nghiên cứu khác cũng đang đi theo hướng tương tự. Vào tháng 8 năm 2025, Google đã giới thiệu Game Arena, một nền tảng mở cho phép các mô hình tiên tiến thi đấu thay vì sử dụng các tiêu chuẩn đánh giá truyền thống. Trước đó, ROCKET-1 đã chứng minh một tác nhân phân cấp trong Minecraft có thể giải quyết các nhiệm vụ đơn giản với tỷ lệ thành công lên tới 100%. Cả hai dự án đều chỉ ra một xu hướng rộng lớn hơn: sử dụng dữ liệu từ các ván đấu thực tế làm nguồn huấn luyện và tiêu chuẩn đánh giá cho hệ thống AI.

Chia sẻ tới bạn bè và gia đình
Gọi ngay Chat