Moshi: Chatbot AI mới thách thức GPT-4o

Công ty AI Pháp, Kyutai, vừa ra mắt chatbot AI mới mang tên “Moshi”, sở hữu nhiều tính năng tương tự “Chế độ Giọng nói Nâng cao” của ChatGPT (đã bị trì hoãn).

Điểm đặc biệt của Moshi nằm ở khả năng hiểu ngữ điệu giọng nói và phản hồi nhanh hơn cả “Chế độ Giọng nói Nâng cao” sắp ra mắt của ChatGPT.

Được xây dựng dựa trên mô hình ngôn ngữ lớn (LLM) 7 tỷ tham số mang tên Helium, Moshi có khả năng giao tiếp với nhiều giọng điệu và phong cách nói khác nhau, lên đến 70 kiểu. Ngoài ra, Moshi còn có thể xử lý đồng thời hai luồng âm thanh, cho phép nghe và nói cùng lúc.

Điều thú vị là chatbot AI này được đặt tên theo cách người Nhật chào hỏi khi bắt đầu cuộc gọi điện thoại. Moshi có tốc độ phản hồi chỉ 200 mili giây, nhanh hơn “Chế độ Giọng nói Nâng cao” của GPT-4o (thường mất từ 232 đến 320 mili giây).




Kyutai cho biết họ đã nỗ lực để Moshi có thể nắm bắt được các sắc thái và ngữ điệu khác nhau trong giao tiếp của con người. Để nâng cao chất lượng giọng nói, công ty thậm chí đã hợp tác với một nghệ sĩ lồng tiếng chuyên nghiệp.

Mặc dù vậy, Moshi vẫn còn khá “nhỏ bé” so với GPT-4o. Được phát triển từ đầu bởi một nhóm chỉ gồm 8 nhà nghiên cứu trong vòng 6 tháng, Moshi được huấn luyện dựa trên 100.000 đoạn hội thoại được tạo ra bằng công nghệ Text-to-Speech.

Kyutai mong muốn biến Moshi thành một dự án mã nguồn mở, cho phép người dùng truy cập mã nguồn và framework của mô hình, từ đó sử dụng chatbot một cách an toàn mà không cần lo lắng về quyền riêng tư.

Mục tiêu của Kyutai là chứng minh tốc độ phản hồi ấn tượng và khả năng tái tạo không chỉ câu chữ mà còn cả giọng điệu và giọng nói của con người thông qua Moshi. Đây có thể chưa phải là đối thủ đáng gờm của ChatGPT, nhưng chắc chắn là một bước tiến lớn trong việc phát triển các mô hình mã nguồn mở có khả năng hoạt động ngoại tuyến.

Bên cạnh đó, Kyutai cũng đang phát triển một hệ thống nhận dạng âm thanh, gắn dấu bản quyền và theo dõi chữ ký chạy bằng AI, dự kiến sẽ được tích hợp vào Moshi trong tương lai.