एंथ्रोपिक का क्लाउड ओपस 4.5 क्राउन कोडिंग का दावा करता है लेकिन प्रमुख सुरक्षा परीक्षणों में विफल रहता है

anthropic हाल ही में क्लाउड ओपस 4.5 को हटा दिया गया, इसे “कोडिंग, एजेंटों और कंप्यूटर उपयोग के लिए दुनिया में सबसे अच्छा मॉडल” कहा गया – यहां तक कि इसे मात देने का भी दावा किया गया गूगल का चर्चित जेमिनी 3. लेकिन यहां एक समस्या है: मॉडल के स्वयं के सुरक्षा परीक्षण चिंताजनक सुरक्षा कमियों को उजागर करते हैं जो उद्यम सीआईएसओ को बुरे सपने दे सकते हैं। नियंत्रित परीक्षणों में दुर्भावनापूर्ण कोडिंग अनुरोधों को अस्वीकार करने में सक्षम होते हुए भी, यह वास्तविक दुनिया के परिदृश्यों में केवल 78% मैलवेयर निर्माण प्रयासों और 88% निगरानी अनुरोधों को रोकता है।

समय इससे अधिक आक्रामक नहीं हो सकता। बस कुछ ही दिन बाद गूगल जेमिनी 3 और के साथ लहरें बनाईं ओपनएआई अपनी एजेंटिक कोडिंग क्षमताओं को अद्यतन किया, anthropic क्लाउड ओपस 4.5 के साथ वापसी कर रहा है और साहसपूर्वक कोडिंग ताज का दावा कर रहा है। कंपनी अपनी महत्वाकांक्षाओं के बारे में अधिक सूक्ष्म नहीं है, नए मॉडल को “कोडिंग, एजेंटों और कंप्यूटर उपयोग के लिए दुनिया में सर्वश्रेष्ठ” घोषित कर रही है और इसे जेमिनी 3 के हालिया प्रभुत्व के लिए एक सीधी चुनौती के रूप में पेश कर रही है।

मेव हेल्थ का लक्ष्य अपने मस्तिष्क-उत्तेजक हेडसेट के साथ ध्यान और मनोदशा में सुधार करना है

लेकिन मार्केटिंग के झांसे के पीछे एक अधिक जटिल कहानी छिपी है। के अनुसार एन्थ्रोपिक का अपना ब्लॉग पोस्टओपस 4.5 गहन अनुसंधान, स्लाइड हेरफेर और स्प्रेडशीट कार्य में महत्वपूर्ण सुधार प्रदान करता है – उद्यम-केंद्रित क्षमताएं जो इसे एक वास्तविक व्यावसायिक उपकरण बना सकती हैं। कंपनी उन्नत क्लाउड कोड सुविधाओं और एक्सेल, क्रोम और डेस्कटॉप अनुप्रयोगों के साथ नए एकीकरण भी शुरू कर रही है, जो कार्यस्थल उत्पादकता में एक गंभीर धक्का का संकेत दे रही है।

यह मॉडल एंथ्रोपिक के उपभोक्ता ऐप्स, एपीआई और सभी तीन प्रमुख क्लाउड प्रदाताओं के माध्यम से तुरंत उपलब्ध है, जिससे इसे त्वरित वितरण पहुंच मिलती है जो इसके महत्वाकांक्षी दावों से मेल खाती है। प्रायोगिक रिलीज़ के विपरीत, यह तत्काल उद्यम अपनाने के लिए डिज़ाइन किया गया प्रतीत होता है।

फिर भी वास्तविक कहानी तकनीकी विवरण में सामने आती है। एन्थ्रोपिक का सिस्टम कार्ड क्षमता और नियंत्रण के बीच बुनियादी तनाव के साथ एक मॉडल कुश्ती का पता चलता है। 150 निषिद्ध अनुरोधों के परीक्षण के लिए नियंत्रित एजेंटिक कोडिंग मूल्यांकन में, ओपस 4.5 ने सही इनकार दर हासिल की – 100% सफलता दर जो बोर्डरूम प्रस्तुतियों में प्रभावशाली लगती है।

एनवीडिया का डीएलएसएस 5 फेस एआई गेमिंग विद्रोह को जन्म देता है

जब मॉडल वास्तविक दुनिया के परिदृश्यों का सामना करता है तो वास्तविकता गड़बड़ हो जाती है। क्लाउड कोड, व्यावहारिक कोडिंग वातावरण, एक अलग कहानी बताता है। जब शोधकर्ताओं ने परीक्षण किया कि क्या ओपस 4.5 “मैलवेयर निर्माण, विनाशकारी DDoS हमलों के लिए कोड लिखने और गैर-सहमति निगरानी सॉफ़्टवेयर विकसित करने” के अनुरोधों का अनुपालन करेगा, तो मॉडल ने केवल 78% प्रयासों को अस्वीकार कर दिया। इसका मतलब है कि मोटे तौर पर पांच में से एक दुर्भावनापूर्ण अनुरोध चूक गया।