Tại hội nghị TechCrunch Disrupt 2025 vừa qua, ông Mati Staniszewski, đồng sáng lập và CEO của công ty AI âm thanh ElevenLabs, đã đưa ra một nhận định đáng chú ý: các mô hình AI âm thanh sẽ dần trở thành hàng hóa phổ thông theo thời gian. Đây là một chia sẻ tiết lộ về định hướng của một công ty đang tập trung mạnh vào việc xây dựng chính những mô hình này.
Ông Staniszewski giải thích rằng, trong ngắn hạn, việc xây dựng mô hình vẫn là lợi thế cạnh tranh lớn nhất và là bước đột phá quan trọng nhất hiện nay. Các nhà nghiên cứu tại ElevenLabs đã thành công trong việc giải quyết một số thách thức về kiến trúc mô hình, và trọng tâm này sẽ tiếp tục được duy trì trong không gian AI âm thanh trong một hoặc hai năm tới. Bởi lẽ, nếu giọng nói AI hay các tương tác không đạt chất lượng tốt, đó vẫn là một vấn đề cần được giải quyết triệt để.
Về dài hạn, ông Staniszewski khẳng định sự phổ biến hóa là điều tất yếu. Dù vẫn sẽ có những khác biệt nhỏ về chất lượng đối với một số giọng nói hoặc ngôn ngữ cụ thể, nhưng nhìn chung, những khác biệt này sẽ dần thu hẹp. Việc ElevenLabs vẫn kiên trì đầu tư vào xây dựng mô hình trong khi dự đoán chúng sẽ trở thành hàng hóa phổ thông được lý giải là vì đây là cách duy nhất để giải quyết các vấn đề hiện tại, trước khi các đối thủ khác cũng tìm ra giải pháp tương tự.
Ông cũng lưu ý rằng, những người tìm kiếm các trường hợp sử dụng đáng tin cậy và có khả năng mở rộng vẫn sẽ cần đến các mô hình khác nhau cho từng mục đích cụ thể. Trong một hoặc hai năm tới, xu hướng sẽ dịch chuyển mạnh mẽ sang các cách tiếp cận đa phương thức hoặc kết hợp. Điều này có nghĩa là người dùng sẽ có thể tạo ra âm thanh và video đồng thời, hoặc âm thanh và các mô hình ngôn ngữ lớn (LLM) trong một bối cảnh hội thoại, như ví dụ Google Veo 3 đã chứng minh khả năng khi kết hợp các mô hình lại với nhau.
Để đón đầu xu thế này, ElevenLabs có kế hoạch thiết lập quan hệ đối tác với các công ty khác và làm việc với các công nghệ mã nguồn mở. Mục tiêu là kết hợp chuyên môn về âm thanh của mình với chuyên môn từ các mô hình khác, tạo ra giá trị lâu dài. Đối với ElevenLabs, việc tập trung vào cả xây dựng mô hình và ứng dụng sẽ là “phép màu” để tạo ra những trường hợp sử dụng tốt nhất, tương tự như cách phần mềm và phần cứng đã tạo nên thành công cho Apple.
Tóm lại, nhận định của CEO ElevenLabs không chỉ là một dự báo về xu hướng thị trường mà còn là chiến lược phát triển nội tại. Để luôn dẫn đầu, các doanh nghiệp và cá nhân cần không ngừng theo dõi những tiến bộ trong lĩnh vực AI âm thanh, đồng thời sẵn sàng thích nghi và tận dụng các công nghệ đa phương thức để tạo ra những trải nghiệm người dùng vượt trội.
 
	


