‘होली शिट’: जेमिनी 3 अभी के लिए एआई रेस जीत रहा है

जब कोई एआई मॉडल रिलीज होता है तो तुरंत मीम्स और ग्रंथ सामने आते हैं जो उद्योग के बाकी हिस्सों को पका हुआ घोषित करते हैं, तो आप जानते हैं कि आपके पास विश्लेषण करने लायक कुछ है।

Google का जेमिनी 3 मंगलवार को व्यापक धूमधाम के साथ रिलीज़ किया गया। कंपनी बुलाया मॉडल “बुद्धि का नया युग” है, इसे पहली बार पहले दिन Google खोज में एकीकृत किया गया। इसने कई बेंचमार्क पर OpenAI और अन्य प्रतिस्पर्धियों के उत्पादों को पीछे छोड़ दिया है और LMArena पर चार्ट में शीर्ष पर है, एक क्राउडसोर्स्ड AI मूल्यांकन प्लेटफ़ॉर्म जो अनिवार्य रूप से AI मॉडल रैंकिंग का बिलबोर्ड हॉट 100 है। इसके लॉन्च के 24 घंटों के भीतर, Google के अनुसार, दस लाख से अधिक उपयोगकर्ताओं ने Google AI स्टूडियो और जेमिनी एपीआई में जेमिनी 3 को आज़माया। “एक दिन के गोद लेने के दृष्टिकोण से, [it’s] Google डीपमाइंड के लोगान किलपैट्रिक, जो Google के AI स्टूडियो और जेमिनी एपीआई के उत्पाद प्रमुख हैं, ने बताया, “हमने अपने किसी भी मॉडल रिलीज़ में सबसे अच्छा देखा है।” द वर्ज.

यहां तक ​​कि ओपनएआई के सीईओ सैम ऑल्टमैन और एक्सएआई के सीईओ एलोन मस्क ने भी अच्छे काम के लिए जेमिनी टीम को सार्वजनिक रूप से बधाई दी। और सेल्सफोर्स के सीईओ मार्क बेनिओफ़ लिखा तीन साल तक हर दिन चैटजीपीटी का उपयोग करने के बाद, जेमिनी 3 पर दो घंटे बिताने से सब कुछ बदल गया: “अरे बकवास… मैं वापस नहीं जा रहा हूं। छलांग पागलपन भरी है – तर्क, गति, चित्र, वीडियो… सब कुछ तेज और तेज है। ऐसा लगता है जैसे दुनिया फिर से बदल गई है।”

एलएमएरेना के सह-संस्थापक और सीटीओ वेई-लिन चियांग ने कहा, “यह लीडरबोर्ड फेरबदल से कहीं अधिक है।” च्यांग ने बताया द वर्ज जेमिनी 3 प्रो कोडिंग, मैच और रचनात्मक लेखन सहित व्यावसायिक श्रेणियों में “स्पष्ट बढ़त” रखता है, और इसकी एजेंटिक कोडिंग क्षमताएं “कई मामलों में अब क्लाउड 4.5 और जीपीटी-5.1 जैसे शीर्ष कोडिंग मॉडल से आगे निकल गई हैं।” इसे विज़ुअल कॉम्प्रिहेंशन में भी शीर्ष स्थान मिला और यह प्लेटफ़ॉर्म के टेक्स्ट लीडरबोर्ड पर ~1500 स्कोर को पार करने वाला पहला मॉडल था।

चियांग ने कहा, नए मॉडल का प्रदर्शन दर्शाता है कि एआई हथियारों की दौड़ को उन मॉडलों द्वारा आकार दिया जा रहा है जो अधिक अमूर्त रूप से तर्क कर सकते हैं, अधिक लगातार सामान्यीकरण कर सकते हैं, और वास्तविक दुनिया के मूल्यांकन के तेजी से विविध सेट में भरोसेमंद परिणाम दे सकते हैं।

डेटारोबोट के प्रमुख सॉफ्टवेयर इंजीनियर एलेक्स कॉनवे ने बताया द वर्ज जेमिनी 3 की सबसे उल्लेखनीय प्रगति एआरसी-एजीआई-2 नामक एक विशिष्ट तर्क बेंचमार्क पर थी। उन्होंने कहा, जेमिनी ने प्रति कार्य लागत के दसवें हिस्से पर चलते हुए ओपनएआई के जीपीटी-5 प्रो से लगभग दोगुना स्कोर हासिल किया, जो “वास्तव में इस धारणा को चुनौती दे रहा है कि ये मॉडल स्थिर हैं।” और सिंपलक्यूए बेंचमार्क पर – जिसमें विषयों की एक विस्तृत श्रृंखला पर सरल प्रश्न और उत्तर शामिल हैं, और इसके लिए बहुत अधिक विशिष्ट ज्ञान की आवश्यकता होती है – जेमिनी 3 प्रो ने ओपनएआई के जीपीटी-5.1 से दोगुने से भी अधिक उच्च स्कोर प्राप्त किया, कॉनवे ने ध्वजांकित किया। “केस-वार उपयोग करें, यह बहुत अधिक विशिष्ट विषयों और अत्याधुनिक अनुसंधान और वैज्ञानिक क्षेत्रों में गहराई से गोता लगाने के लिए बहुत अच्छा होगा,” उन्होंने कहा।

लेकिन लीडरबोर्ड ही सब कुछ नहीं हैं. यह संभव है – और उच्च दबाव वाली एआई दुनिया में, सामान्य प्रयोजन की सफलता के बजाय संकीर्ण बेंचमार्क के लिए एक मॉडल को प्रशिक्षित करना आकर्षक है। तो वास्तव में यह जानने के लिए कि कोई सिस्टम कितना अच्छा काम कर रहा है, आपको वास्तविक दुनिया के परीक्षण, वास्तविक अनुभव और जंगल में जटिल उपयोग के मामलों पर भरोसा करना होगा।

द वर्ज विभिन्न विषयों के पेशेवरों से बात की जो काम के लिए हर दिन एआई का उपयोग करते हैं। आम सहमति: जेमिनी 3 प्रभावशाली दिखता है, और यह कार्यों की एक विस्तृत श्रृंखला पर बहुत अच्छा काम करता है – लेकिन जब किनारे के मामलों और कुछ उद्योगों के विशिष्ट पहलुओं की बात आती है, तो कई पेशेवर जल्द ही अपने वर्तमान मॉडल को इसके साथ प्रतिस्थापित नहीं करेंगे।

बहुसंख्यक लोग द वर्ज उस क्षेत्र में जेमिनी 3 की प्रगति के बावजूद, अपनी कोडिंग आवश्यकताओं के लिए एंथ्रोपिक के क्लाउड का उपयोग जारी रखने की योजना के साथ बात की। कुछ लोगों ने यह भी कहा कि जेमिनी 3 यूजर इंटरेक्शन के मोर्चे पर इष्टतम नहीं है। कार्नेगी मेलन विश्वविद्यालय के सहायक प्रोफेसर और एआई2 के एक शोध वैज्ञानिक टिम डेटमर्स ने कहा कि हालांकि यह एक “महान मॉडल” है, लेकिन जब यूएक्स की बात आती है तो यह थोड़ा कच्चा है, जिसका अर्थ है “यह निर्देशों का सटीक रूप से पालन नहीं करता है।”

Google DeepMind के जेमिनी और जेन मीडिया के उत्पाद प्रबंधन के वरिष्ठ निदेशक तुलसी दोशी ने बताया द वर्ज कंपनी ने जेमिनी 3 को विभिन्न प्रकार के Google उत्पादों में “बहुत वास्तविक तरीके से” लाने को प्राथमिकता दी। जब उनसे निर्देश-पालन संबंधी चिंताओं के बारे में पूछा गया, तो उन्होंने कहा कि यह देखना मददगार रहा है कि “लोग कहां कुछ अटके हुए बिंदुओं पर ध्यान दे रहे हैं।”

उन्होंने यह भी कहा कि चूंकि प्रो मॉडल जेमिनी 3 सूट में पहली रिलीज है, बाद के मॉडल “उस चिंता को दूर करने” में मदद करेंगे।

थॉमसन रॉयटर्स के सीटीओ जोएल ह्रोन ने कहा कि कंपनी के अपने आंतरिक बेंचमार्क हैं, जिन्हें उन्होंने अपने आंतरिक मॉडल और सार्वजनिक मॉडल दोनों को उन क्षेत्रों में रैंक करने के लिए विकसित किया है जो उनके काम के लिए सबसे अधिक प्रासंगिक हैं – जैसे कई सैकड़ों पृष्ठों तक के दो दस्तावेजों की तुलना करना, एक लंबे दस्तावेज़ की व्याख्या करना, कानूनी अनुबंधों को समझना, और कानूनी और कर क्षेत्रों में तर्क करना। उन्होंने कहा कि अब तक, जेमिनी 3 ने उन सभी में जोरदार प्रदर्शन किया है और यह “जेमिनी 2.5 की तुलना में एक महत्वपूर्ण छलांग है।” यह अभी कुछ क्षेत्रों में एंथ्रोपिक और ओपनएआई के कई मॉडलों से बेहतर प्रदर्शन कर रहा है।

रेडियोलॉजी एआई स्टार्टअप कॉग्निटा के सह-संस्थापक और सीईओ लुइस ब्लैंकेमेयर ने कहा कि “शुद्ध संख्या” के मामले में जेमिनी 3 “सुपर रोमांचक” है। लेकिन, उन्होंने कहा, “हमें अभी भी यह पता लगाने के लिए कुछ समय चाहिए कि इस मॉडल की वास्तविक दुनिया में उपयोगिता क्या है।” अधिक सामान्य डोमेन के लिए, ब्लैंकेमेयर ने कहा, जेमिनी 3 एक सितारा है, लेकिन जब उन्होंने रेडियोलॉजी के लिए इसके साथ खेला, तो इसे छाती के एक्स-रे पर सूक्ष्म पसलियों के फ्रैक्चर के साथ-साथ असामान्य या दुर्लभ स्थितियों की सही पहचान करने में कठिनाई हुई। वह रेडियोलॉजी को कई मायनों में सेल्फ-ड्राइविंग कारों के समान कहता है, जिसमें बहुत सारे किनारे वाले मामले हैं – इसलिए एक नया, अधिक शक्तिशाली मॉडल अभी भी पुराने मॉडल जितना प्रभावी नहीं हो सकता है जिसे समय के साथ कस्टम डेटा पर परिष्कृत और प्रशिक्षित किया गया है। उन्होंने कहा, “वास्तविक दुनिया इससे कहीं अधिक कठिन है।”

इसी तरह, कानून प्रवर्तन जांच के लिए एआई उपकरण प्रदान करने वाली कंपनी लॉन्गआई में एआई के प्रमुख मैट हॉफमैन जेमिनी 3 प्रो-संचालित नैनो बनाना प्रो छवि जनरेटर में आशा देखते हैं। छवि जनरेटर लॉन्गआई को परीक्षण के लिए ठोस सिंथेटिक डेटासेट बनाने की अनुमति देते हैं, जिससे यह वास्तविक, संवेदनशील जांच डेटा को सुरक्षित रखता है। लेकिन यद्यपि बेंचमार्क प्रभावशाली हैं, वे कंपनी के वास्तविक उपयोग के मामलों से मेल नहीं खा सकते हैं। उन्होंने कहा, “मुझे विश्वास नहीं है कि लॉन्गआई जेमिनी 3 के लिए उत्पादन में उपयोग किए जा रहे मॉडल को बदल सकता है और तत्काल सुधार देख सकता है।”

अन्य कंपनियाँ भी कहती हैं कि वे जेमिनी को लेकर उत्साहित हैं – लेकिन जरूरी नहीं कि इसका उपयोग बाकी सभी चीजों को बदलने के लिए किया जाए। बिल्ट, एक निर्माण ऋण देने वाला स्टार्टअप, वर्तमान में निर्माण ड्रा अनुरोधों का विश्लेषण करने के लिए Google, एंथ्रोपिक, ओपनएआई और अन्य के मूलभूत मॉडलों के मिश्रण का उपयोग करता है – दस्तावेज़ों का एक पैकेज अक्सर एक निर्माण ऋणदाता को भेजा जाता है, जैसे चालान और किए गए काम का प्रमाण, जिसमें धन का भुगतान करने का अनुरोध किया जाता है। इंजीनियरिंग के उपाध्यक्ष थॉमस श्लेगल ने बताया कि इसके लिए पाठ और छवियों के मल्टीमॉडल विश्लेषण के साथ-साथ मुख्य एजेंट द्वारा दूसरों को कार्य सौंपने के लिए एक बड़ी संदर्भ विंडो की आवश्यकता होती है। द वर्ज. यह Google द्वारा जेमिनी 3 के साथ किए गए वादे का हिस्सा है, इसलिए कंपनी वर्तमान में इसे 2.5 में बदलने पर विचार कर रही है।

श्लेगल ने कहा, “अतीत में हमने जेमिनी को सभी-उद्देश्यीय कार्यों में सर्वश्रेष्ठ पाया है, और 3 उसी तर्ज पर एक बड़ा कदम प्रतीत होता है।” “यह वह सब कुछ है जो हमें स्टेरॉयड पर मिथुन राशि के बारे में पसंद है।” लेकिन उन्हें अभी तक नहीं लगता कि यह अन्य सभी मॉडलों की जगह लेगा, जिसमें कोडिंग कार्यों के लिए क्लाउड और व्यावसायिक तर्क के लिए ओपनएआई उत्पाद शामिल हैं।

एआई एजेंट प्लेटफॉर्म प्रॉम्प्टक्यूएल के सह-संस्थापक और सीईओ तन्मई गोपाल के लिए, जेमिनी 3 ने जो हलचल मचाई है, वह वैध है, लेकिन Google के प्रतिस्पर्धियों के लिए “यह निश्चित रूप से किसी भी चीज़ का अंत नहीं है”। एआई मॉडल बेहतर और सस्ते होते जा रहे हैं, और चूंकि वे इतनी जल्दी रिलीज चक्र पर हैं, “कोई भी व्यक्ति हमेशा कुछ समय के लिए पैक से आगे रहता है।” (उदाहरण के लिए, जेमिनी 3 के आने के अगले दिन, OpenAI जारी किया जीपीटी-5.1-कोडेक्स-मैक्स, एक सप्ताह पुराने मॉडल का अपडेट, जाहिरा तौर पर कुछ कोडिंग बेंचमार्क पर जेमिनी 3 को चुनौती देने के लिए।)

एरिना का एलएलएम लीडरबोर्ड भौंहें चढ़ाता है: इसे रैंक करने वालों द्वारा वित्त पोषित

गोपाल ने कहा कि PromptQL अभी भी आंतरिक मूल्यांकन पर काम कर रहा है ताकि यह तय किया जा सके कि टीम के मॉडल विकल्प कैसे बदलेंगे, लेकिन “जरूरी नहीं कि प्रारंभिक परिणाम उनके वर्तमान लाइनअप की तुलना में कुछ बहुत बेहतर दिखा रहे हों”। उन्होंने कहा कि उनकी वर्तमान प्राथमिकता कोड जनरेशन के लिए क्लाउड, वेब खोज के लिए चैटजीपीटी और “गहन विचार-मंथन” के लिए जीपीटी-5 प्रो है, लेकिन वह जेमिनी 3 को एक डिफ़ॉल्ट मॉडल के रूप में शामिल कर सकते हैं, क्योंकि यह “संभवतः रचनात्मक, पाठ, उपभोक्ता कार्यों के लिए अपनी श्रेणी में सर्वश्रेष्ठ है।” [and] छवि।”

और लगभग हर मॉडल की तरह, जेमिनी 3 में ऐसे क्षण आए हैं जिन्हें मैं “रोबोटिक हैंड सिंड्रोम” कहूंगा – जब एक एआई सिस्टम उड़ते हुए रंगों के साथ कुछ जटिल करता है लेकिन सबसे सरल क्वेरी से चकित हो जाता है, जैसे कि पुराने जमाने के रोबोटिक हाथों को सोडा कैन पकड़ने में परेशानी होती थी। प्रसिद्ध शोधकर्ता आंद्रेज कारपैथी, जो ओपनएआई के संस्थापक सदस्य और टेस्ला में एआई के पूर्व निदेशक थे, लिखा जेमिनी 3 का परीक्षण करने के बाद एक्स पर उन्होंने कहा कि “कल उनके व्यक्तित्व, लेखन, वाइब कोडिंग, हास्य इत्यादि में एक सकारात्मक प्रारंभिक प्रभाव था, बहुत ठोस दैनिक चालक क्षमता, स्पष्ट रूप से एक टियर 1 एलएलएम,” लेकिन उन्होंने कहा कि मॉडल उस पर विश्वास करने से इनकार कर दिया जब उसने कहा कि यह 2025 है और बाद में कहा कि वह Google खोज चालू करना भूल गया है। (उन्होंने पता लगाया कि प्रारंभिक परीक्षण में, उन्हें पुराने सिस्टम प्रॉम्प्ट वाला एक मॉडल दिया गया होगा।)

में द वर्जजेमिनी 3 के परीक्षण के अपने अनुभव के अनुसार, हमने पाया कि यह “चेतावनी के साथ – यथोचित रूप से अच्छा प्रदर्शन करता है।” यह संभवतः हमेशा शीर्ष पर नहीं रहेगा, लेकिन यह कंपनी के लिए एक अचूक कदम है।

ह्रोन ने कहा, “आप इस छलांग के खेल में एक मॉडल से दूसरे मॉडल, महीने दर महीने, जब कोई नया मॉडल आता है, में होते हैं।” “लेकिन Google की रिलीज़ के बारे में जो चीज़ मेरे लिए अटकी हुई है वह यह है कि यह मॉडल के कई आयामों में पर्याप्त सुधार करता है – इसलिए ऐसा नहीं है कि यह सिर्फ कोडिंग में बेहतर हो गया है या यह सिर्फ तर्क करने में बेहतर हो गया है … यह वास्तव में, बोर्ड भर में, थोड़ा बेहतर हो गया है।”

विषयों और लेखकों का अनुसरण करें इस कहानी से अपने वैयक्तिकृत होमपेज फ़ीड में इस तरह की और अधिक जानकारी देखने और ईमेल अपडेट प्राप्त करने के लिए।


Source link

Leave a Comment