एंथ्रोपिक के ओपस 4.6 ने एआई एजेंट बेंचमार्क को कुछ ही हफ्तों में 60% बढ़ा दिया

  • एंथ्रोपिक का ओपस 4.6 ने 29.8% स्कोर किया एपेक्स-एजेंट बेंचमार्कजनवरी के अनुसार 18.4% से ऊपर टेकक्रंच

  • कानूनी विश्लेषण और कॉर्पोरेट अनुसंधान जैसे पेशेवर कार्यों में कई प्रयास किए जाने पर मॉडल 45% सटीकता तक पहुंचता है

    अलीबाबा राजस्व अनुमान से चूक गया, शुद्ध आय 66% घट गई
  • नई ‘एजेंट स्वार्म्स’ सुविधा बहु-चरणीय समस्या-समाधान को सक्षम बनाती है जिससे पिछले मॉडल जूझते रहे

  • मर्कोर सीईओ ने प्रगति को ‘पागल’ बताया – सुझाव दिया कि एआई एजेंट उम्मीद से कहीं अधिक तेजी से कार्यस्थल व्यवहार्यता तक पहुंच सकते हैं

एआई एजेंट की दौड़ अभी वास्तविक हो गई है। anthropic इस सप्ताह ओपस 4.6 को गिरा दिया और तुरंत पेशेवर-ग्रेड एआई एजेंटों के लिए लीडरबोर्ड में हलचल मचा दी। नया मॉडल जटिल कानूनी और कॉर्पोरेट कार्यों पर लगभग 30% प्रभाव डालता है – जो कुछ ही सप्ताह पहले अपने पूर्ववर्ती के 18.4% स्कोर से 60% अधिक है। यह एक तरह की बेंचमार्क छलांग है जो सफेदपोश पेशेवरों को परेशान करती है और निवेशकों को बहुत दिलचस्पी देती है।

anthropic बस प्रत्येक कानूनी फर्म सीटीओ को अपनी पांच-वर्षीय कार्यबल योजनाओं को अद्यतन करने का एक कारण दिया। कंपनी का हाल ही में जारी किया गया ओपस 4.6 मॉडल जटिल पेशेवर काम से निपटने वाले एआई एजेंटों के लिए जो संभव है उसे फिर से लिख रहा है, और संख्याएं एक ऐसी कहानी बताती हैं जिसे नजरअंदाज करना मुश्किल है।

पिछले महीने ही, उद्योग की आम सहमति स्पष्ट थी: एआई एजेंट प्राइम टाइम के लिए तैयार नहीं थे। कब मर्कोर एआई सिस्टम वास्तविक दुनिया के पेशेवर कार्यों को कितनी अच्छी तरह संभालते हैं – जिस तरह वकील और विश्लेषक रोजाना करते हैं – इसका परीक्षण करने के लिए जनवरी में अपना एपेक्स-एजेंट बेंचमार्क लॉन्च किया – प्रत्येक प्रमुख प्रयोगशाला ने 25% से कम स्कोर किया। निष्कर्ष सुरक्षित लगा: आपकी नौकरी सुरक्षित है, कम से कम अभी के लिए।

वह तीन सप्ताह पहले की बात है. इस हफ़्ते का ओपस 4.6 रिलीज़ उस आरामदायक धारणा को तोड़ दिया। नए मॉडल ने बेंचमार्क के एक-शॉट परीक्षणों पर 29.8% स्कोर किया, जो कि अपने पूर्ववर्ती की तुलना में 60% सुधार है। जब एक ही समस्या पर कई प्रयास किए जाते हैं – वास्तविक पेशेवर जटिल कार्यों को कैसे दोहराते हैं, इसकी नकल करते हुए – औसत 45% तक बढ़ जाता है।

Google ने यूरोप के लिए AI हेल्थ प्लेटफ़ॉर्म पर DocMorris के साथ साझेदारी की

“कुछ महीनों में 18.4% से 29.8% तक छलांग लगाना पागलपन है,” मर्कोर सीईओ ब्रेंडन फ़ूडी ने बताया टेकक्रंच. सुधार की गति ने बेंचमार्क रचनाकारों को भी आश्चर्यचकित कर दिया।

क्या बदल गया? anthropic ओपस 4.6 को नई एजेंटिक सुविधाओं के एक सूट के साथ भेजा गया, जिसमें इसे “एजेंट स्वार्म्स” भी शामिल है – एक समस्या के विभिन्न पहलुओं पर समानांतर में काम करने वाले कई एआई उदाहरण। यह दृष्टिकोण बहु-चरणीय तर्क-वितर्क के लिए विशेष रूप से प्रभावी प्रतीत होता है जिसकी व्यावसायिक कार्य मांग करता है। जहां पहले के मॉडल किसी अनुबंध या वित्तीय दस्तावेज़ का विश्लेषण करने के दौरान धागे को आधे रास्ते में खो देते थे, ओपस 4.6 स्पष्ट रूप से उपयोगी निष्कर्ष तक पहुंचने के लिए संदर्भ को लंबे समय तक पकड़ सकता है।