Datacurve, một công ty khởi nghiệp nổi bật từ Y Combinator, vừa công bố vòng gọi vốn Series A trị giá 15 triệu USD do Chemistry dẫn đầu. Khoản đầu tư này, với sự tham gia của các nhân viên từ DeepMind, Vercel, Anthropic và OpenAI, khẳng định tầm quan trọng ngày càng tăng của dữ liệu chất lượng cao trong ngành trí tuệ nhân tạo. Sự kiện này diễn ra sau vòng hạt giống 2,7 triệu USD, có sự góp mặt của cựu CTO Coinbase Balaji Srinivasan, và đặt Datacurve vào vị thế cạnh tranh trực tiếp với những công ty như Mercor, Surge, và đặc biệt là Scale AI của Alexandr Wang, người hiện đã chuyển sang điều hành AI tại Meta.
Để thu thập những tập dữ liệu khó tìm kiếm nhất, Datacurve áp dụng hệ thống “thợ săn tiền thưởng” nhằm thu hút các kỹ sư phần mềm lành nghề. Công ty đã chi trả hơn 1 triệu USD tiền thưởng cho những đóng góp này. Tuy nhiên, đồng sáng lập Serena Ge chia sẻ rằng động lực lớn nhất không phải là tài chính, bởi lẽ mức thù lao cho công việc dữ liệu thường thấp hơn đáng kể so với việc làm truyền thống trong lĩnh vực phát triển phần mềm.
Lợi thế quan trọng nhất của Datacurve nằm ở việc tạo ra trải nghiệm người dùng tích cực. Bà Ge nhấn mạnh: “Chúng tôi coi đây là một sản phẩm tiêu dùng, chứ không phải một hoạt động gắn nhãn dữ liệu đơn thuần.” Công ty dành nhiều thời gian để tối ưu hóa nền tảng, đảm bảo những người có năng lực cao quan tâm và muốn tham gia, qua đó tạo dựng một cộng đồng đóng góp bền vững.
Nhu cầu về dữ liệu hậu huấn luyện ngày càng trở nên phức tạp. Trong khi các mô hình AI trước đây được đào tạo trên những tập dữ liệu đơn giản, sản phẩm AI hiện đại lại dựa vào các môi trường học tăng cường (RL) phức tạp, đòi hỏi việc thu thập dữ liệu phải có chiến lược và cụ thể. Khi các môi trường này trở nên tinh vi hơn, yêu cầu về cả số lượng và chất lượng dữ liệu đều tăng cường, mang lại lợi thế đáng kể cho các công ty thu thập dữ liệu chất lượng cao như Datacurve.
Mặc dù ở giai đoạn đầu, Datacurve đang tập trung vào kỹ thuật phần mềm, bà Ge tin rằng mô hình này hoàn toàn có thể áp dụng cho các lĩnh vực khác như tài chính, tiếp thị, hoặc thậm chí là y học. Mục tiêu cuối cùng là tạo ra một cơ sở hạ tầng thu thập dữ liệu hậu huấn luyện có khả năng thu hút và giữ chân những cá nhân có năng lực cao trong chính lĩnh vực chuyên môn của họ.