Công cụ nghiên cứu mới phát hiện lỗi trong mã do AI tạo ra, cải thiện khả năng giám sát AI của con người.
(San Francisco, Mỹ) – Các nhà nghiên cứu tại OpenAI vừa giới thiệu CriticGPT, một mô hình AI mới được thiết kế để xác định lỗi trong mã do ChatGPT tạo ra. Mô hình này nhằm mục đích nâng cao khả năng điều chỉnh hành vi của hệ thống AI theo mong muốn của con người (hay còn gọi là “căn chỉnh”) thông qua phương pháp Học tăng cường từ Phản hồi của con người (RLHF).
Theo bài báo nghiên cứu mới có tên “LLM Critics Help Catch LLM Bugs”, OpenAI đã tạo ra CriticGPT để đóng vai trò như một trợ lý AI cho các chuyên gia đánh giá mã lập trình do ChatGPT tạo. Dựa trên họ mô hình ngôn ngữ lớn (LLM) GPT-4, CriticGPT phân tích mã và chỉ ra các lỗi tiềm ẩn, giúp con người dễ dàng phát hiện những sai sót mà có thể bỏ qua. Các nhà nghiên cứu đã huấn luyện CriticGPT trên một tập dữ liệu mẫu mã có chứa lỗi được đưa vào một cách có chủ ý, giúp nó nhận biết và gắn cờ các loại lỗi mã hóa khác nhau.
Kết quả cho thấy các nhận xét của CriticGPT được các chuyên gia đánh giá cao hơn so với nhận xét của con người trong 63% trường hợp liên quan đến lỗi LLM xảy ra tự nhiên. Các nhóm kết hợp giữa con người và máy móc sử dụng CriticGPT đã đưa ra những nhận xét toàn diện hơn so với chỉ con người, đồng thời giảm tỷ lệ sai lệch (gây ảo giác) so với các nhận xét chỉ từ AI.
Phát triển một nhà phê bình tự động
Quá trình phát triển CriticGPT liên quan đến việc huấn luyện mô hình trên một lượng lớn dữ liệu đầu vào có chứa các lỗi được cài đặt cố ý. Các chuyên gia được yêu cầu sửa đổi mã do ChatGPT viết, đưa vào các lỗi và sau đó cung cấp phản hồi ví dụ như thể họ đã phát hiện ra những lỗi này. Quá trình này cho phép mô hình học cách xác định và phê bình các loại lỗi mã hóa khác nhau.
Trong các thí nghiệm, CriticGPT đã chứng minh khả năng phát hiện cả lỗi được cài đặt và lỗi xảy ra tự nhiên trong mã do ChatGPT tạo ra. Các nhận xét của mô hình mới được các chuyên gia đánh giá cao hơn so với nhận xét do chính ChatGPT tạo ra trong 63% trường hợp liên quan đến lỗi tự nhiên. Điều này một phần là do CriticGPT tạo ra ít “nhận xét nhỏ” vô ích hơn và ít tạo ra các dương tính giả, hay các vấn đề ảo giác.
Nhóm nghiên cứu cũng tạo ra một kỹ thuật mới gọi là Tìm kiếm chùm tia cưỡng bức lấy mẫu (FSBS). Phương pháp này giúp CriticGPT viết các bài đánh giá mã chi tiết hơn. Nó cho phép các nhà nghiên cứu điều chỉnh mức độ kỹ lưỡng của CriticGPT trong việc tìm kiếm vấn đề, đồng thời kiểm soát tần suất nó có thể tạo ra các vấn đề không thực sự tồn tại. Họ có thể điều chỉnh sự cân bằng này tùy thuộc vào nhu cầu của họ cho các tác vụ huấn luyện AI khác nhau.
Điều thú vị là các nhà nghiên cứu nhận thấy khả năng của CriticGPT vượt xa việc chỉ đánh giá mã. Trong các thí nghiệm của mình, họ đã áp dụng mô hình cho một tập hợp con dữ liệu huấn luyện ChatGPT trước đây được các chuyên gia đánh giá là hoàn hảo. Đáng ngạc nhiên là CriticGPT đã xác định được lỗi trong 24% trường hợp này – những lỗi sau đó đã được các chuyên gia xác nhận. OpenAI cho rằng điều này chứng minh tiềm năng của mô hình trong việc khái quát hóa cho các tác vụ phi mã và làm nổi bật khả năng phát hiện các lỗi tinh vi mà ngay cả việc đánh giá cẩn thận của con người cũng có thể bỏ sót.
Hạn chế và tiềm năng phát triển
Mặc dù có những kết quả đầy hứa hẹn, nhưng cũng giống như tất cả các mô hình AI khác, CriticGPT có những hạn chế. Mô hình được huấn luyện trên các câu trả lời ChatGPT tương đối ngắn, điều này có thể chưa hoàn toàn chuẩn bị cho nó để đánh giá các tác vụ dài hơn, phức tạp hơn mà các hệ thống AI trong tương lai có thể giải quyết. Ngoài ra, mặc dù CriticGPT làm giảm ảo giác, nhưng nó không loại bỏ hoàn toàn chúng và các chuyên gia vẫn có thể mắc lỗi ghi nhãn dựa trên những kết quả sai lệch này.
Nhóm nghiên cứu thừa nhận rằng CriticGPT hiệu quả nhất trong việc xác định các lỗi có thể được chỉ ra ở một vị trí cụ thể trong mã. Tuy nhiên, các lỗi trong thế giới thực trong kết quả đầu ra của AI thường có thể lan truyền trên nhiều phần của câu trả lời, đặt ra thách thức cho các lần lặp lại mô hình trong tương lai.
OpenAI có kế hoạch tích hợp các mô hình giống như CriticGPT vào quy trình ghi nhãn RLHF của mình, cung cấp cho các chuyên gia hỗ trợ AI. Đối với OpenAI, đây là một bước tiến tới việc phát triển các công cụ tốt hơn để đánh giá kết quả đầu ra từ các hệ thống LLM mà con người có thể khó đánh giá nếu không có hỗ trợ thêm. Tuy nhiên, các nhà nghiên cứu cảnh báo rằng ngay cả với các công cụ như CriticGPT, các tác vụ hoặc phản hồi cực kỳ phức tạp vẫn có thể gây khó khăn cho người đánh giá – ngay cả khi được AI hỗ trợ.