OpenAI Ra Mắt Các Mô Hình AI Mở Đột Phá

ai models launched openly

OpenAI vừa công bố hai mô hình AI mở là gpt-oss-120b và gpt-oss-20b, cung cấp miễn phí trên Hugging Face. Đây là bước chuyển quan trọng từ chiến lược sở hữu trí tuệ khép kín sang chia sẻ mở, giúp nhà phát triển dễ dàng tiếp cận và vận hành trên thiết bị phổ thông. Tuy có hiệu năng ấn tượng nhờ mixture-of-experts, các mô hình vẫn còn hạn chế về độ chính xác kiến thức, đặt ra câu hỏi về ứng dụng thực tế trong tương lai.

Những điểm chính

  • OpenAI ra mắt hai mô hình AI mở gpt-oss-120b và gpt-oss-20b, có thể tải miễn phí trên Hugging Face.
  • Mô hình hỗ trợ chạy trên GPU Nvidia đơn hoặc laptop với RAM 16GB, phù hợp thiết bị phổ thông.
  • gpt-oss-120b đạt điểm 2622 trên Codeforces, vượt các đối thủ như DeepSeek R1 về hiệu năng.
  • Công nghệ mixture-of-experts (MoE) giúp gpt-oss-120b kích hoạt chỉ 5.1 tỷ tham số mỗi token, tối ưu hiệu suất.
  • Mô hình được cấp phép Apache 2.0, cho phép doanh nghiệp thương mại hóa mà không cần xin phép.

OpenAI vừa ra mắt hai mô hình AI mở có trọng số công khai đầu tiên sau hơn năm năm, gồm gpt-oss-120bgpt-oss-20b, cho phép người dùng tải về miễn phí trên Hugging Face và sử dụng trên các thiết bị phổ thông như GPU Nvidia đơn hoặc laptop với 16GB RAM. Đây là lần đầu tiên kể từ GPT-2, OpenAI mới công bố các mô hình ngôn ngữ mở với trọng số được phát hành công khai, đánh dấu bước chuyển hướng quan trọng từ chiến lược sở hữu trí tuệ khép kín sang chia sẻ cởi mở với cộng đồng. Việc này cũng nhằm tăng cường sự ủng hộ từ giới phát triển và chính phủ trong bối cảnh cạnh tranh gay gắt với các phòng thí nghiệm AI Trung Quốc như DeepSeek, Alibaba Qwen, hay Moonshot AI.

OpenAI công bố hai mô hình AI mở với trọng số công khai, mở ra kỷ nguyên chia sẻ cởi mở sau nhiều năm.

Hai mô hình mới có hiệu năng ấn tượng trên các bài kiểm tra chuyên sâu. gpt-oss-120b đạt điểm 2622 trên Codeforces, vượt qua DeepSeek R1 nhưng vẫn thấp hơn các phiên bản nội bộ của OpenAI như o3 và o4-mini. Trên Humanitys Last Exam (HLE), gpt-oss-120b cũng đạt 19%, vượt mặt DeepSeek và Qwen nhưng chưa bằng o3. Tuy nhiên, tỷ lệ hallucination của cả hai mô hình khá cao, lần lượt 49% và 53%, cho thấy các mô hình mở vẫn còn hạn chế về kiến thức thế giới và độ chính xác thông tin so với các mô hình đóng. Đây là một hệ quả của việc mô hình được huấn luyện tương tự nhưng phải đối mặt với thách thức trong kiểm soát nội dung sai lệch.

Về mặt kỹ thuật, OpenAI ứng dụng kiến trúc mixture-of-experts (MoE), giúp gpt-oss-120b dù có 117 tỷ tham số nhưng mỗi token chỉ kích hoạt khoảng 5.1 tỷ tham số, tối ưu hiệu suất và tài nguyên. Ngoài ra, các mô hình này được huấn luyện với kỹ thuật reinforcement learning có tính toán cao và có khả năng gọi các công cụ hỗ trợ như tìm kiếm web hay thực thi mã Python. Tuy nhiên, chúng vẫn chỉ xử lý văn bản, chưa hỗ trợ hình ảnh hay âm thanh.

OpenAI phát hành các mô hình dưới giấy phép Apache 2.0, cho phép doanh nghiệp thương mại hóa mà không cần xin phép. Tuy nhiên, dữ liệu huấn luyện không được công bố do các vụ kiện liên quan bản quyền. Quá trình phát hành được trì hoãn để đánh giá kỹ các rủi ro về an toànhạn chế lạm dụng. Mặc dù có sự gia tăng nhỏ về khả năng sinh học, không có dấu hiệu nguy hiểm lớn nào được phát hiện. Các nhà phát triển hiện đang chờ đợi các sản phẩm mở tiếp theo từ DeepSeek và Meta Superintelligence Lab để so sánh và tiếp tục phát triển.