‘होली शिट’: जेमिनी 3 अभी के लिए एआई रेस जीत रहा है

जब कोई एआई मॉडल रिलीज होता है तो तुरंत मीम्स और ग्रंथ सामने आते हैं जो उद्योग के बाकी हिस्सों को पका हुआ घोषित करते हैं, तो आप जानते हैं कि आपके पास विश्लेषण करने लायक कुछ है।

Google का जेमिनी 3 मंगलवार को व्यापक धूमधाम के साथ रिलीज़ किया गया। कंपनी बुलाया मॉडल “बुद्धि का नया युग” है, इसे पहली बार पहले दिन Google खोज में एकीकृत किया गया। इसने कई बेंचमार्क पर OpenAI और अन्य प्रतिस्पर्धियों के उत्पादों को पीछे छोड़ दिया है और LMArena पर चार्ट में शीर्ष पर है, एक क्राउडसोर्स्ड AI मूल्यांकन प्लेटफ़ॉर्म जो अनिवार्य रूप से AI मॉडल रैंकिंग का बिलबोर्ड हॉट 100 है। इसके लॉन्च के 24 घंटों के भीतर, Google के अनुसार, दस लाख से अधिक उपयोगकर्ताओं ने Google AI स्टूडियो और जेमिनी एपीआई में जेमिनी 3 को आज़माया। “एक दिन के गोद लेने के दृष्टिकोण से, [it’s] Google डीपमाइंड के लोगान किलपैट्रिक, जो Google के AI स्टूडियो और जेमिनी एपीआई के उत्पाद प्रमुख हैं, ने बताया, “हमने अपने किसी भी मॉडल रिलीज़ में सबसे अच्छा देखा है।” द वर्ज.

यहां तक कि ओपनएआई के सीईओ सैम ऑल्टमैन और एक्सएआई के सीईओ एलोन मस्क ने भी अच्छे काम के लिए जेमिनी टीम को सार्वजनिक रूप से बधाई दी। और सेल्सफोर्स के सीईओ मार्क बेनिओफ़ लिखा तीन साल तक हर दिन चैटजीपीटी का उपयोग करने के बाद, जेमिनी 3 पर दो घंटे बिताने से सब कुछ बदल गया: “अरे बकवास… मैं वापस नहीं जा रहा हूं। छलांग पागलपन भरी है – तर्क, गति, चित्र, वीडियो… सब कुछ तेज और तेज है। ऐसा लगता है जैसे दुनिया फिर से बदल गई है।”

एलएमएरेना के सह-संस्थापक और सीटीओ वेई-लिन चियांग ने कहा, “यह लीडरबोर्ड फेरबदल से कहीं अधिक है।” च्यांग ने बताया द वर्ज जेमिनी 3 प्रो कोडिंग, मैच और रचनात्मक लेखन सहित व्यावसायिक श्रेणियों में “स्पष्ट बढ़त” रखता है, और इसकी एजेंटिक कोडिंग क्षमताएं “कई मामलों में अब क्लाउड 4.5 और जीपीटी-5.1 जैसे शीर्ष कोडिंग मॉडल से आगे निकल गई हैं।” इसे विज़ुअल कॉम्प्रिहेंशन में भी शीर्ष स्थान मिला और यह प्लेटफ़ॉर्म के टेक्स्ट लीडरबोर्ड पर ~1500 स्कोर को पार करने वाला पहला मॉडल था।

चियांग ने कहा, नए मॉडल का प्रदर्शन दर्शाता है कि एआई हथियारों की दौड़ को उन मॉडलों द्वारा आकार दिया जा रहा है जो अधिक अमूर्त रूप से तर्क कर सकते हैं, अधिक लगातार सामान्यीकरण कर सकते हैं, और वास्तविक दुनिया के मूल्यांकन के तेजी से विविध सेट में भरोसेमंद परिणाम दे सकते हैं।

डेटारोबोट के प्रमुख सॉफ्टवेयर इंजीनियर एलेक्स कॉनवे ने बताया द वर्ज जेमिनी 3 की सबसे उल्लेखनीय प्रगति एआरसी-एजीआई-2 नामक एक विशिष्ट तर्क बेंचमार्क पर थी। उन्होंने कहा, जेमिनी ने प्रति कार्य लागत के दसवें हिस्से पर चलते हुए ओपनएआई के जीपीटी-5 प्रो से लगभग दोगुना स्कोर हासिल किया, जो “वास्तव में इस धारणा को चुनौती दे रहा है कि ये मॉडल स्थिर हैं।” और सिंपलक्यूए बेंचमार्क पर – जिसमें विषयों की एक विस्तृत श्रृंखला पर सरल प्रश्न और उत्तर शामिल हैं, और इसके लिए बहुत अधिक विशिष्ट ज्ञान की आवश्यकता होती है – जेमिनी 3 प्रो ने ओपनएआई के जीपीटी-5.1 से दोगुने से भी अधिक उच्च स्कोर प्राप्त किया, कॉनवे ने ध्वजांकित किया। “केस-वार उपयोग करें, यह बहुत अधिक विशिष्ट विषयों और अत्याधुनिक अनुसंधान और वैज्ञानिक क्षेत्रों में गहराई से गोता लगाने के लिए बहुत अच्छा होगा,” उन्होंने कहा।

लेकिन लीडरबोर्ड ही सब कुछ नहीं हैं. यह संभव है – और उच्च दबाव वाली एआई दुनिया में, सामान्य प्रयोजन की सफलता के बजाय संकीर्ण बेंचमार्क के लिए एक मॉडल को प्रशिक्षित करना आकर्षक है। तो वास्तव में यह जानने के लिए कि कोई सिस्टम कितना अच्छा काम कर रहा है, आपको वास्तविक दुनिया के परीक्षण, वास्तविक अनुभव और जंगल में जटिल उपयोग के मामलों पर भरोसा करना होगा।

द वर्ज विभिन्न विषयों के पेशेवरों से बात की जो काम के लिए हर दिन एआई का उपयोग करते हैं। आम सहमति: जेमिनी 3 प्रभावशाली दिखता है, और यह कार्यों की एक विस्तृत श्रृंखला पर बहुत अच्छा काम करता है – लेकिन जब किनारे के मामलों और कुछ उद्योगों के विशिष्ट पहलुओं की बात आती है, तो कई पेशेवर जल्द ही अपने वर्तमान मॉडल को इसके साथ प्रतिस्थापित नहीं करेंगे।

बहुसंख्यक लोग द वर्ज उस क्षेत्र में जेमिनी 3 की प्रगति के बावजूद, अपनी कोडिंग आवश्यकताओं के लिए एंथ्रोपिक के क्लाउड का उपयोग जारी रखने की योजना के साथ बात की। कुछ लोगों ने यह भी कहा कि जेमिनी 3 यूजर इंटरेक्शन के मोर्चे पर इष्टतम नहीं है। कार्नेगी मेलन विश्वविद्यालय के सहायक प्रोफेसर और एआई2 के एक शोध वैज्ञानिक टिम डेटमर्स ने कहा कि हालांकि यह एक “महान मॉडल” है, लेकिन जब यूएक्स की बात आती है तो यह थोड़ा कच्चा है, जिसका अर्थ है “यह निर्देशों का सटीक रूप से पालन नहीं करता है।”

Google DeepMind के जेमिनी और जेन मीडिया के उत्पाद प्रबंधन के वरिष्ठ निदेशक तुलसी दोशी ने बताया द वर्ज कंपनी ने जेमिनी 3 को विभिन्न प्रकार के Google उत्पादों में “बहुत वास्तविक तरीके से” लाने को प्राथमिकता दी। जब उनसे निर्देश-पालन संबंधी चिंताओं के बारे में पूछा गया, तो उन्होंने कहा कि यह देखना मददगार रहा है कि “लोग कहां कुछ अटके हुए बिंदुओं पर ध्यान दे रहे हैं।”

उन्होंने यह भी कहा कि चूंकि प्रो मॉडल जेमिनी 3 सूट में पहली रिलीज है, बाद के मॉडल “उस चिंता को दूर करने” में मदद करेंगे।

थॉमसन रॉयटर्स के सीटीओ जोएल ह्रोन ने कहा कि कंपनी के अपने आंतरिक बेंचमार्क हैं, जिन्हें उन्होंने अपने आंतरिक मॉडल और सार्वजनिक मॉडल दोनों को उन क्षेत्रों में रैंक करने के लिए विकसित किया है जो उनके काम के लिए सबसे अधिक प्रासंगिक हैं – जैसे कई सैकड़ों पृष्ठों तक के दो दस्तावेजों की तुलना करना, एक लंबे दस्तावेज़ की व्याख्या करना, कानूनी अनुबंधों को समझना, और कानूनी और कर क्षेत्रों में तर्क करना। उन्होंने कहा कि अब तक, जेमिनी 3 ने उन सभी में जोरदार प्रदर्शन किया है और यह “जेमिनी 2.5 की तुलना में एक महत्वपूर्ण छलांग है।” यह अभी कुछ क्षेत्रों में एंथ्रोपिक और ओपनएआई के कई मॉडलों से बेहतर प्रदर्शन कर रहा है।

रेडियोलॉजी एआई स्टार्टअप कॉग्निटा के सह-संस्थापक और सीईओ लुइस ब्लैंकेमेयर ने कहा कि “शुद्ध संख्या” के मामले में जेमिनी 3 “सुपर रोमांचक” है। लेकिन, उन्होंने कहा, “हमें अभी भी यह पता लगाने के लिए कुछ समय चाहिए कि इस मॉडल की वास्तविक दुनिया में उपयोगिता क्या है।” अधिक सामान्य डोमेन के लिए, ब्लैंकेमेयर ने कहा, जेमिनी 3 एक सितारा है, लेकिन जब उन्होंने रेडियोलॉजी के लिए इसके साथ खेला, तो इसे छाती के एक्स-रे पर सूक्ष्म पसलियों के फ्रैक्चर के साथ-साथ असामान्य या दुर्लभ स्थितियों की सही पहचान करने में कठिनाई हुई। वह रेडियोलॉजी को कई मायनों में सेल्फ-ड्राइविंग कारों के समान कहता है, जिसमें बहुत सारे किनारे वाले मामले हैं – इसलिए एक नया, अधिक शक्तिशाली मॉडल अभी भी पुराने मॉडल जितना प्रभावी नहीं हो सकता है जिसे समय के साथ कस्टम डेटा पर परिष्कृत और प्रशिक्षित किया गया है। उन्होंने कहा, “वास्तविक दुनिया इससे कहीं अधिक कठिन है।”

इसी तरह, कानून प्रवर्तन जांच के लिए एआई उपकरण प्रदान करने वाली कंपनी लॉन्गआई में एआई के प्रमुख मैट हॉफमैन जेमिनी 3 प्रो-संचालित नैनो बनाना प्रो छवि जनरेटर में आशा देखते हैं। छवि जनरेटर लॉन्गआई को परीक्षण के लिए ठोस सिंथेटिक डेटासेट बनाने की अनुमति देते हैं, जिससे यह वास्तविक, संवेदनशील जांच डेटा को सुरक्षित रखता है। लेकिन यद्यपि बेंचमार्क प्रभावशाली हैं, वे कंपनी के वास्तविक उपयोग के मामलों से मेल नहीं खा सकते हैं। उन्होंने कहा, “मुझे विश्वास नहीं है कि लॉन्गआई जेमिनी 3 के लिए उत्पादन में उपयोग किए जा रहे मॉडल को बदल सकता है और तत्काल सुधार देख सकता है।”

अन्य कंपनियाँ भी कहती हैं कि वे जेमिनी को लेकर उत्साहित हैं – लेकिन जरूरी नहीं कि इसका उपयोग बाकी सभी चीजों को बदलने के लिए किया जाए। बिल्ट, एक निर्माण ऋण देने वाला स्टार्टअप, वर्तमान में निर्माण ड्रा अनुरोधों का विश्लेषण करने के लिए Google, एंथ्रोपिक, ओपनएआई और अन्य के मूलभूत मॉडलों के मिश्रण का उपयोग करता है – दस्तावेज़ों का एक पैकेज अक्सर एक निर्माण ऋणदाता को भेजा जाता है, जैसे चालान और किए गए काम का प्रमाण, जिसमें धन का भुगतान करने का अनुरोध किया जाता है। इंजीनियरिंग के उपाध्यक्ष थॉमस श्लेगल ने बताया कि इसके लिए पाठ और छवियों के मल्टीमॉडल विश्लेषण के साथ-साथ मुख्य एजेंट द्वारा दूसरों को कार्य सौंपने के लिए एक बड़ी संदर्भ विंडो की आवश्यकता होती है। द वर्ज. यह Google द्वारा जेमिनी 3 के साथ किए गए वादे का हिस्सा है, इसलिए कंपनी वर्तमान में इसे 2.5 में बदलने पर विचार कर रही है।

श्लेगल ने कहा, “अतीत में हमने जेमिनी को सभी-उद्देश्यीय कार्यों में सर्वश्रेष्ठ पाया है, और 3 उसी तर्ज पर एक बड़ा कदम प्रतीत होता है।” “यह वह सब कुछ है जो हमें स्टेरॉयड पर मिथुन राशि के बारे में पसंद है।” लेकिन उन्हें अभी तक नहीं लगता कि यह अन्य सभी मॉडलों की जगह लेगा, जिसमें कोडिंग कार्यों के लिए क्लाउड और व्यावसायिक तर्क के लिए ओपनएआई उत्पाद शामिल हैं।

एआई एजेंट प्लेटफॉर्म प्रॉम्प्टक्यूएल के सह-संस्थापक और सीईओ तन्मई गोपाल के लिए, जेमिनी 3 ने जो हलचल मचाई है, वह वैध है, लेकिन Google के प्रतिस्पर्धियों के लिए “यह निश्चित रूप से किसी भी चीज़ का अंत नहीं है”। एआई मॉडल बेहतर और सस्ते होते जा रहे हैं, और चूंकि वे इतनी जल्दी रिलीज चक्र पर हैं, “कोई भी व्यक्ति हमेशा कुछ समय के लिए पैक से आगे रहता है।” (उदाहरण के लिए, जेमिनी 3 के आने के अगले दिन, OpenAI जारी किया जीपीटी-5.1-कोडेक्स-मैक्स, एक सप्ताह पुराने मॉडल का अपडेट, जाहिरा तौर पर कुछ कोडिंग बेंचमार्क पर जेमिनी 3 को चुनौती देने के लिए।)

एरिना का एलएलएम लीडरबोर्ड भौंहें चढ़ाता है: इसे रैंक करने वालों द्वारा वित्त पोषित

गोपाल ने कहा कि PromptQL अभी भी आंतरिक मूल्यांकन पर काम कर रहा है ताकि यह तय किया जा सके कि टीम के मॉडल विकल्प कैसे बदलेंगे, लेकिन “जरूरी नहीं कि प्रारंभिक परिणाम उनके वर्तमान लाइनअप की तुलना में कुछ बहुत बेहतर दिखा रहे हों”। उन्होंने कहा कि उनकी वर्तमान प्राथमिकता कोड जनरेशन के लिए क्लाउड, वेब खोज के लिए चैटजीपीटी और “गहन विचार-मंथन” के लिए जीपीटी-5 प्रो है, लेकिन वह जेमिनी 3 को एक डिफ़ॉल्ट मॉडल के रूप में शामिल कर सकते हैं, क्योंकि यह “संभवतः रचनात्मक, पाठ, उपभोक्ता कार्यों के लिए अपनी श्रेणी में सर्वश्रेष्ठ है।” [and] छवि।”

और लगभग हर मॉडल की तरह, जेमिनी 3 में ऐसे क्षण आए हैं जिन्हें मैं “रोबोटिक हैंड सिंड्रोम” कहूंगा – जब एक एआई सिस्टम उड़ते हुए रंगों के साथ कुछ जटिल करता है लेकिन सबसे सरल क्वेरी से चकित हो जाता है, जैसे कि पुराने जमाने के रोबोटिक हाथों को सोडा कैन पकड़ने में परेशानी होती थी। प्रसिद्ध शोधकर्ता आंद्रेज कारपैथी, जो ओपनएआई के संस्थापक सदस्य और टेस्ला में एआई के पूर्व निदेशक थे, लिखा जेमिनी 3 का परीक्षण करने के बाद एक्स पर उन्होंने कहा कि “कल उनके व्यक्तित्व, लेखन, वाइब कोडिंग, हास्य इत्यादि में एक सकारात्मक प्रारंभिक प्रभाव था, बहुत ठोस दैनिक चालक क्षमता, स्पष्ट रूप से एक टियर 1 एलएलएम,” लेकिन उन्होंने कहा कि मॉडल उस पर विश्वास करने से इनकार कर दिया जब उसने कहा कि यह 2025 है और बाद में कहा कि वह Google खोज चालू करना भूल गया है। (उन्होंने पता लगाया कि प्रारंभिक परीक्षण में, उन्हें पुराने सिस्टम प्रॉम्प्ट वाला एक मॉडल दिया गया होगा।)

में द वर्जजेमिनी 3 के परीक्षण के अपने अनुभव के अनुसार, हमने पाया कि यह “चेतावनी के साथ – यथोचित रूप से अच्छा प्रदर्शन करता है।” यह संभवतः हमेशा शीर्ष पर नहीं रहेगा, लेकिन यह कंपनी के लिए एक अचूक कदम है।

ह्रोन ने कहा, “आप इस छलांग के खेल में एक मॉडल से दूसरे मॉडल, महीने दर महीने, जब कोई नया मॉडल आता है, में होते हैं।” “लेकिन Google की रिलीज़ के बारे में जो चीज़ मेरे लिए अटकी हुई है वह यह है कि यह मॉडल के कई आयामों में पर्याप्त सुधार करता है – इसलिए ऐसा नहीं है कि यह सिर्फ कोडिंग में बेहतर हो गया है या यह सिर्फ तर्क करने में बेहतर हो गया है … यह वास्तव में, बोर्ड भर में, थोड़ा बेहतर हो गया है।”

विषयों और लेखकों का अनुसरण करें इस कहानी से अपने वैयक्तिकृत होमपेज फ़ीड में इस तरह की और अधिक जानकारी देखने और ईमेल अपडेट प्राप्त करने के लिए।

हेडन फील्ड
हेडन फील्ड
Table of Contents
Toggle
हेडन फील्ड
ऐ
गूगल
ओपनएआई
प्रतिवेदन
तकनीक
इस लेखक की पोस्ट आपके दैनिक ईमेल डाइजेस्ट और आपके होमपेज फ़ीड में जोड़ दी जाएंगी।

द्वारा सभी देखें हेडन फील्ड
गूगल

इस विषय की पोस्ट आपके दैनिक ईमेल डाइजेस्ट और आपके होमपेज फ़ीड में जोड़ दी जाएंगी।

मेरा पसंदीदा रोबोट वैक्यूम अब मैटर को सपोर्ट करता है

सभी देखें गूगल

Source link

‘होली शिट’: जेमिनी 3 अभी के लिए एआई रेस जीत रहा है

Leave a Comment Cancel reply

Recent Posts

Nothing Phone (3a) Pro – ఫ్లాగ్‌షిప్ ఫీచర్స్ తో బడ్జెట్ స్మార్ట్‌ఫోన్

₹10,000లోపే ఫుల్ ప్యాక్‌డ్ ఫోన్! రెడ్మీ 8 ఫీచర్స్ చూసి మీరు షాక్ అవ్వాల్సిందే

एरिना का एलएलएम लीडरबोर्ड भौंहें चढ़ाता है: इसे रैंक करने वालों द्वारा वित्त पोषित

मेरा पसंदीदा रोबोट वैक्यूम अब मैटर को सपोर्ट करता है

एंटरप्राइज़ सॉफ़्टवेयर को प्रॉम्प्ट में बदलने के लिए एरागॉन ने $12 मिलियन जुटाए

सबसे अच्छी शुरुआती अमेज़न बिग स्प्रिंग सेल डील आप अभी प्राप्त कर सकते हैं

फिलिप्स का नया ऑडियो गियर 80 के दशक के चमकीले बोल्ड रंगों को वापस लाता है

मार्क्विस रैंसमवेयर हमले से 672K सामाजिक सुरक्षा नंबरों का खुलासा हुआ

मेव हेल्थ का लक्ष्य अपने मस्तिष्क-उत्तेजक हेडसेट के साथ ध्यान और मनोदशा में सुधार करना है

एनवीडिया का डीएलएसएस 5 फेस एआई गेमिंग विद्रोह को जन्म देता है