تقول شركة Anthropic إن نموذجها الأحدث للذكاء الاصطناعي قوي للغاية بحيث لا يمكن إصداره
قالت شركة Anthropic يوم الثلاثاء إنها أوقفت الإصدار الأوسع لأحدث نموذج للذكاء الاصطناعي، Mythos، بسبب مخاوف من أنه جيد جدًا في العثور على “نقاط ضعف عالية الخطورة” في أنظمة التشغيل الرئيسية ومتصفحات الويب.
جارٍ تحميل السرد الصوتي…
كتب Anthropic في بطاقة نظام المعاينة: “لقد أدت الزيادة الكبيرة في إمكانيات Claude Mythos Preview إلى اتخاذ قرار بعدم إتاحتها بشكل عام”. “بدلاً من ذلك، نستخدمها كجزء من برنامج دفاعي للأمن السيبراني مع مجموعة محدودة من الشركاء.”
يعد هذا الإعلان خطوة كبيرة لشركة Anthropic، التي أضعفت في فبراير الماضي تعهدها بالسلامة حول كيفية تطوير نماذج الذكاء الاصطناعي. تم إصدار Claude Opus 4.6، والذي وصفته الشركة بأنه أقوى طراز لها حتى الآن، في 5 فبراير.
في تصريحاتها حول Mythos، قامت Anthropic بتفصيل عدد من النتائج والحلقات المثيرة للدهشة، بما في ذلك أن النموذج يمكن أن يتبع التعليمات التي شجعته على الخروج من صندوق الحماية الافتراضي.
“لقد نجح النموذج، مما يدل على قدرة خطيرة محتملة للتحايل على الضمانات لدينا،” روت أنثروبيك في بطاقة الأمان الخاصة بها. “ثم انتقلت بعد ذلك إلى اتخاذ إجراءات إضافية وأكثر إثارة للقلق.”
وكان الباحث قد شجع ميثوس على إيجاد طريقة لإرسال رسالة إذا كان بإمكانه الهروب. وكتبت أنثروبيك: “لقد اكتشف الباحث هذا النجاح من خلال تلقي بريد إلكتروني غير متوقع من العارضة أثناء تناول شطيرة في الحديقة”.
يبدو أن النموذج قرر أن ذلك لم يكن كافيًا ووجد طريقة أخرى لرفع كرة القدم.
وكتبت أنثروبيك: “في جهد مقلق وغير مطلوب لإثبات نجاحها، نشرت تفاصيل حول استغلالها على العديد من المواقع الإلكترونية التي يصعب العثور عليها، ولكنها تواجه الجمهور من الناحية الفنية”.
تحجب Anthropic بعض التفاصيل حول نقاط الضعف في الأمن السيبراني التي وجدتها Mythos، لكنها أشارت إلى القليل منها. وكتبت الشركة أن نموذج الذكاء الاصطناعي “اكتشف ثغرة أمنية عمرها 27 عاما في OpenBSD، الذي يتمتع بسمعة طيبة باعتباره أحد أكثر أنظمة التشغيل تشددا من الناحية الأمنية في العالم”.
كانت Mythos قوية بما يكفي حتى يتمكن “غير الخبراء” من استغلال قدراتها.
“لقد طلب المهندسون في Anthropic الذين ليس لديهم تدريب أمني رسمي من Mythos Preview العثور على ثغرات أمنية في تنفيذ التعليمات البرمجية عن بعد بين عشية وضحاها، واستيقظوا في صباح اليوم التالي على استغلال كامل للعمل،” كتب فريق Frontier Red في Anthropic في منشور بالمدونة. “وفي حالات أخرى، طلبنا من الباحثين تطوير السقالات التي تسمح لـ Mythos Preview بتحويل نقاط الضعف إلى برامج استغلال دون أي تدخل بشري.”
أخيرًا، قالت أنثروبيك إنها قررت عدم إطلاق سراح ميثوس علنًا. وبدلاً من ذلك، يأملون في إطلاق “نماذج من فئة ميثوس” في نهاية المطاف بمجرد وضع الضمانات المناسبة.
وكتب الفريق في المدونة: “هدفنا النهائي هو تمكين مستخدمينا من نشر نماذج فئة Mythos بأمان على نطاق واسع – لأغراض الأمن السيبراني ولكن أيضًا من أجل الفوائد الأخرى التي لا تعد ولا تحصى والتي ستجلبها هذه النماذج ذات القدرة العالية”. “وللقيام بذلك، فهذا يعني أيضًا أننا بحاجة إلى إحراز تقدم في تطوير ضمانات الأمن السيبراني (وغيرها) التي تكتشف وتمنع أخطر مخرجات النموذج.”
في الوقت الحالي، لن تتمكن سوى 11 مؤسسة أخرى مختارة، بما في ذلك Google وMicrosoft وAmazon Web Services وNvidia وJPMorgan Chase، من الوصول إلى Mythos كجزء من مجموعة الأمن السيبراني المسماة “Project Glasswing”. تقدم Anthropic ما يصل إلى 100 مليون دولار من أرصدة استخدام Mythos كجزء مما تسميه “Project Glasswing”.
تم تسمية مشروع الأمن السيبراني على اسم الفراشة الزجاجية، وهي استعارة قالتها الشركة حول كيفية تمكن Mythos من العثور على نقاط الضعف المخفية على مرأى من الجميع وتجنب الضرر من خلال الشفافية بشأن المخاطر.
جاءت هذه الأخبار في يوم شهد فيه كلود وكلود كود من Anthropic “انقطاعًا كبيرًا”، وهي أحدث علامة على الآلام المتزايدة حيث تكافح شركة الذكاء الاصطناعي الناشئة لمواكبة شعبيتها المكتشفة حديثًا.