Anthropic rót vốn xây dựng thế hệ tiêu chuẩn đánh giá AI mới toàn diện hơn

Anthropic vừa khởi động một chương trình tài trợ cho việc phát triển các loại tiêu chuẩn mới, nhằm đánh giá hiệu suất và tác động của các mô hình AI, bao gồm cả các mô hình tạo sinh như Claude của chính họ.

Công ty nghiên cứu và phát triển AI Anthropic đã công bố chương trình tài trợ mới vào thứ Hai vừa qua. Chương trình này sẽ cấp vốn cho các tổ chức độc lập có khả năng “đo lường hiệu quả năng lực tiên tiến trong các mô hình AI”, như cách công ty mô tả trong một bài đăng trên blog. Các tổ chức quan tâm có thể gửi đơn đăng ký để được xem xét liên tục.

“Khoản đầu tư của chúng tôi vào các hoạt động đánh giá này nhằm mục đích nâng cao toàn bộ lĩnh vực an toàn AI, cung cấp các công cụ giá trị mang lại lợi ích cho toàn bộ hệ sinh thái”, Anthropic viết trên blog chính thức của mình. “Việc phát triển các bài đánh giá chất lượng cao, liên quan đến an toàn vẫn còn nhiều thách thức, và nhu cầu đang vượt quá khả năng cung cấp.”

Như đã đề cập trước đây, AI đang gặp vấn đề về tiêu chuẩn đánh giá. Các tiêu chuẩn được trích dẫn phổ biến nhất cho AI hiện nay chưa thực sự nắm bắt được cách người dùng phổ thông sử dụng hệ thống. Ngoài ra, cũng có những câu hỏi đặt ra về việc liệu một số tiêu chuẩn, đặc biệt là những tiêu chuẩn được phát hành trước khi AI tạo sinh hiện đại ra đời, có còn đo lường được những gì chúng muốn đo lường hay không, xét về tuổi đời của chúng.

Giải pháp cấp cao, nghe có vẻ đơn giản nhưng lại khó thực hiện mà Anthropic đề xuất là tạo ra các tiêu chuẩn đánh giá đầy thách thức, tập trung vào bảo mật AI và tác động xã hội thông qua các công cụ, cơ sở hạ tầng và phương pháp mới.

Cụ thể, công ty kêu gọi các bài kiểm tra đánh giá khả năng của mô hình trong việc thực hiện các nhiệm vụ như thực hiện tấn công mạng, “nâng cao” vũ khí hủy diệt hàng loạt (ví dụ: vũ khí hạt nhân) và thao túng hoặc đánh lừa con người (ví dụ: thông qua deepfake hoặc thông tin sai lệch). Đối với các rủi ro AI liên quan đến an ninh và quốc phòng quốc gia, Anthropic cho biết họ cam kết phát triển một “hệ thống cảnh báo sớm” để xác định và đánh giá rủi ro, mặc dù họ không tiết lộ trong bài đăng trên blog hệ thống đó có thể bao gồm những gì.

Anthropic cũng cho biết họ dự định sử dụng chương trình mới này để hỗ trợ nghiên cứu về các tiêu chuẩn đánh giá và các nhiệm vụ “toàn diện” nhằm thăm dò tiềm năng của AI trong việc hỗ trợ nghiên cứu khoa học, giao tiếp bằng nhiều ngôn ngữ và giảm thiểu các thành kiến ​​cố hữu, cũng như tự kiểm duyệt nội dung độc hại.

Để đạt được tất cả những điều này, Anthropic hình dung ra các nền tảng mới cho phép các chuyên gia phát triển các bài đánh giá của riêng họ và các thử nghiệm mô hình quy mô lớn với sự tham gia của “hàng nghìn” người dùng. Công ty cho biết họ đã thuê một điều phối viên toàn thời gian cho chương trình và họ có thể mua lại hoặc mở rộng các dự án mà họ tin là có tiềm năng nhân rộng.

“Chúng tôi cung cấp một loạt các lựa chọn tài trợ phù hợp với nhu cầu và giai đoạn của mỗi dự án”, Anthropic viết trong bài đăng, mặc dù người phát ngôn của Anthropic từ chối cung cấp thêm bất kỳ chi tiết nào về các lựa chọn đó. “Các nhóm sẽ có cơ hội tương tác trực tiếp với các chuyên gia tên miền của Anthropic từ nhóm red team, tinh chỉnh, tin cậy và an toàn, và các nhóm liên quan khác.”

Nỗ lực của Anthropic trong việc hỗ trợ các tiêu chuẩn đánh giá AI mới là một điều đáng khen ngợi – tất nhiên là giả sử có đủ nguồn lực tài chính và nhân lực đằng sau nó. Tuy nhiên, với tham vọng thương mại của công ty trong cuộc đua AI, có thể sẽ khó để hoàn toàn tin tưởng vào nỗ lực này.

Trong bài đăng trên blog, Anthropic khá minh bạch về việc họ muốn các bài đánh giá nhất định mà họ tài trợ phải phù hợp với các phân loại an toàn AI mà họ đã phát triển (với một số ý kiến ​​đóng góp từ các bên thứ ba như tổ chức nghiên cứu AI phi lợi nhuận METR). Điều đó hoàn toàn nằm trong quyền hạn của công ty. Tuy nhiên, nó cũng có thể buộc các ứng viên tham gia chương trình phải chấp nhận các định nghĩa về AI “an toàn” hoặc “rủi ro” mà họ có thể không đồng ý.

Một bộ phận cộng đồng AI có thể cũng sẽ phản đối việc Anthropic đề cập đến các rủi ro AI “thảm khốc” và “lừa đảo”, chẳng hạn như rủi ro về vũ khí hạt nhân. Nhiều chuyên gia cho rằng có rất ít bằng chứng cho thấy AI mà chúng ta biết ngày nay sẽ có được khả năng vượt trội con người và hủy diệt thế giới trong thời gian sắp tới, nếu có. Những tuyên bố về “siêu trí tuệ” sắp xuất hiện chỉ nhằm mục đích đánh lạc hướng sự chú ý khỏi các vấn đề cấp bách về quy định AI hiện nay, chẳng hạn như xu hướng “ảo giác” của AI, các chuyên gia này cho biết thêm.

Trong bài đăng của mình, Anthropic viết rằng họ hy vọng chương trình của mình sẽ đóng vai trò là “chất xúc tác cho tiến bộ hướng tới tương lai, nơi việc đánh giá AI toàn diện là một tiêu chuẩn ngành.” Đó là sứ mệnh mà nhiều nỗ lực cởi mở và không liên kết với công ty trong việc tạo ra các tiêu chuẩn đánh giá AI tốt hơn có thể đồng tình. Tuy nhiên, vẫn còn phải xem liệu những nỗ lực đó có sẵn sàng hợp tác với một nhà cung cấp AI mà lòng trung thành của họ cuối cùng lại thuộc về các cổ đông hay không.