Bạn đã bao giờ thử giao tiếp với trợ lý ảo hay ghi chú cuộc họp bằng giọng nói trong một quán cà phê ồn ào, chỉ để nhận lại những câu trả lời lạc lõng hoặc bản ghi sai lệch? Thử thách lớn nhất của AI giọng nói hiện nay không nằm ở khả năng xử lý ngôn ngữ, mà ở việc lắng nghe và thu nhận chính xác giọng nói của người dùng giữa muôn vàn tạp âm. Đây chính là vấn đề mà Subtle Computing, một startup có trụ sở tại California, đang giải quyết bằng mô hình cách ly giọng nói độc quyền, hứa hẹn mang lại một cuộc cách mạng cho các sản phẩm và dịch vụ AI dựa trên giọng nói.
Thị trường ứng dụng tiêu dùng sử dụng AI giọng nói đang chứng kiến sự tăng trưởng vượt bậc. Các công cụ ghi chú cuộc họp AI như Granola, Fireflies, Fathom và Read AI đã thu hút sự chú ý lớn từ cả người dùng lẫn nhà đầu tư. Nhiều công ty lớn như OpenAI, ClickUp và Notion cũng đã tích hợp các giải pháp phiên âm giọng nói, trong khi các nhà phát triển ứng dụng như Wispr Flow và Willow đang tập trung vào tính năng đọc chính tả bằng giọng nói. Thậm chí, các công ty phần cứng như Plaud và Sandbar còn sử dụng thiết bị chuyên dụng để phiên âm giọng nói, sau đó dùng AI để phân tích và tương tác.
Tuy nhiên, một trong những rào cản lớn nhất đối với những công ty này là khả năng thu nhận giọng nói người dùng một cách rõ ràng trong mọi môi trường, từ quán cà phê đông đúc cho đến văn phòng mở ồn ào. Để giải quyết triệt để vấn đề này, Subtle Computing đã phát triển một mô hình cách ly giọng nói end-to-end có khả năng hiểu rõ những gì bạn đang nói, bất kể môi trường xung quanh có nhiều tiếng ồn đến đâu. Tyler Chen, một trong những nhà sáng lập, cho biết thay vì đào tạo một mô hình chung cho tất cả thiết bị, Subtle Computing huấn luyện các mô hình cụ thể để phù hợp với đặc tính âm học của từng thiết bị riêng biệt và thích ứng với giọng nói của từng người dùng.
Cách tiếp cận này mang lại hiệu quả vượt trội. Chen giải thích rằng khi bảo toàn được đặc điểm âm học của thiết bị, họ đạt được hiệu suất tốt hơn gấp nhiều lần so với các giải pháp chung chung, đồng thời cung cấp giải pháp cá nhân hóa cho người dùng. Mô hình cách ly giọng nói của Subtle Computing không chỉ nhỏ gọn, chỉ vài megabyte, mà còn có độ trễ cực thấp (100 ms), cho phép chạy trực tiếp trên một số thiết bị. Nhờ khả năng cách ly giọng nói hiệu quả này, mô hình phiên âm của công ty cũng có thể hiểu người dùng tốt hơn, tạo ra bản ghi chính xác hơn.
Sự uy tín của Subtle Computing đã được khẳng định thông qua việc Qualcomm lựa chọn startup này tham gia chương trình mở rộng giọng nói và âm nhạc của mình, đảm bảo công nghệ của họ tương thích với chip của Qualcomm và có mặt trên các thiết bị của OEM. Công ty cũng đã huy động thành công 6 triệu đô la Mỹ trong vòng hạt giống, với sự dẫn dắt của Entrada Ventures và sự tham gia của các nhà đầu tư thiên thần nổi tiếng như Biz Stone (Twitter) và Evan Sharp (Pinterest). Karen Roter Davis, đối tác quản lý tại Entrada Ventures, nhận định rằng sự tập trung của Subtle Computing vào cách ly giọng nói là một bước đi đột phá, mang lại trải nghiệm giọng nói đáng tin cậy, dễ dàng và thú vị ngay cả trong môi trường cực kỳ ồn ào hay yên tĩnh.
Subtle Computing đang định hình lại cách chúng ta tương tác với AI giọng nói, biến những trải nghiệm giao tiếp đôi khi khó chịu thành mượt mà và đáng tin cậy hơn. Với việc đã hợp tác với các thương hiệu phần cứng tiêu dùng và ô tô, cùng kế hoạch ra mắt một sản phẩm tiêu dùng kết hợp cả phần cứng và phần mềm vào năm tới, công ty này không chỉ muốn là nhà cung cấp mô hình mà còn là người tiên phong mang đến một tương lai mà AI thực sự lắng nghe bạn, mọi lúc, mọi nơi. Hãy cùng chờ đón những bước tiến đột phá từ Subtle Computing, nơi công nghệ được thiết kế để phục vụ người dùng một cách tối ưu nhất.

