माइक्रोसॉफ्ट के एआई एजेंट सिंथेटिक मार्केटप्लेस में बुनियादी कार्यों में विफल रहे


माइक्रोसॉफ्ट अभी-अभी एआई एजेंट प्रचार पर एक वास्तविकता जांच की गई। कंपनी के नए सिंथेटिक मार्केटप्लेस परीक्षण वातावरण ने GPT-4o और जेमिनी सहित प्रमुख AI मॉडलों में गंभीर खामियां उजागर कीं, जिससे पता चला कि वे बहुत सारे विकल्पों से अभिभूत हो जाते हैं और प्रभावी ढंग से सहयोग नहीं कर पाते हैं। ये निष्कर्ष इस बात पर गंभीर सवाल उठाते हैं कि ये एजेंट वास्तविक दुनिया में तैनाती के लिए कितने तैयार हैं।

माइक्रोसॉफ्ट शोधकर्ताओं ने एआई एजेंट क्रांति पर ठंडा पानी फेंक दिया। तकनीकी दिग्गज के नए सिंथेटिक परीक्षण वातावरण, जिसे ‘मैजेंटिक मार्केटप्लेस’ कहा जाता है, से पता चलता है कि आज के सबसे उन्नत एआई एजेंट – जिनमें शामिल हैं ओपनएआई GPT-4o और Google का जेमिनी – आश्चर्यजनक रूप से बुनियादी कार्यों के साथ संघर्ष करते हैं।

एरिजोना स्टेट यूनिवर्सिटी के साथ आयोजित और बुधवार को प्रकाशित शोध में सिम्युलेटेड मार्केटप्लेस परिदृश्यों में 300 बिजनेस-साइड एजेंटों के मुकाबले 100 ग्राहक-साइड एजेंटों का परीक्षण किया गया। इसे ऐसे समझें कि एआई एजेंट रात्रिभोज का ऑर्डर देने की कोशिश कर रहे हैं जबकि रेस्तरां एजेंट अपने व्यवसाय के लिए प्रतिस्पर्धा कर रहे हैं। नतीजे अच्छे नहीं थे.

apple airtag 2 alt und neu np 1070x602
क्या यह वास्तव में खरीदने लायक है?

के प्रबंध निदेशक एसे कमर ने कहा, ‘हम चाहते हैं कि ये एजेंट हमें कई विकल्पों को संसाधित करने में मदद करें।’ माइक्रोसॉफ्ट रिसर्च का एआई फ्रंटियर्स लैब ने बताया टेकक्रंच. ‘और हम देख रहे हैं कि मौजूदा मॉडल वास्तव में बहुत सारे विकल्प होने के कारण अभिभूत हो रहे हैं।’

ये निष्कर्ष उस मूल बात पर प्रहार करते हैं जिसका एआई कंपनियां वादा कर रही हैं। स्वायत्त निर्णय लेने में सक्षम परिष्कृत डिजिटल सहायकों के बजाय, परीक्षण में ऐसे एजेंटों का पता चला जो विकल्प पक्षाघात के तहत झुकते हैं और बुनियादी हेरफेर रणनीति का शिकार होते हैं।

एक विशेष रूप से उल्लेखनीय प्रयोग में, शोधकर्ताओं ने कई तकनीकें पाईं जिनका उपयोग बिजनेस-साइड एजेंट ग्राहक एजेंटों को खरीदारी करने में हेरफेर करने के लिए कर सकते हैं। जैसे-जैसे विकल्पों की संख्या बढ़ती गई, ग्राहक एजेंटों की कार्यकुशलता में नाटकीय गिरावट देखी गई, अनिवार्य रूप से वे निर्णय के क्षेत्र में खो गए।

लेकिन समस्याएँ केवल पसंद की अधिकता से कहीं अधिक गहरी थीं। जब शोधकर्ताओं ने कई एजेंटों को एक सामान्य लक्ष्य की दिशा में सहयोग करने का काम सौंपा, तो मॉडल वास्तव में भूमिका असाइनमेंट और समन्वय के बारे में भ्रमित लग रहे थे। स्पष्ट चरण-दर-चरण निर्देशों के साथ प्रदर्शन में सुधार हुआ, लेकिन इससे स्वायत्त एजेंटों का उद्देश्य विफल हो गया।

file c22cd389cb
एनवीडिया के हुआंग ने $100बी ओपनएआई डील पतन की रिपोर्ट की निंदा की

कमर ने समझाया, ‘हम मॉडलों को निर्देश दे सकते हैं – जैसे हम उन्हें चरण दर चरण बता सकते हैं।’ ‘लेकिन अगर हम स्वाभाविक रूप से उनकी सहयोग क्षमताओं का परीक्षण कर रहे हैं, तो मैं उम्मीद करूंगा कि इन मॉडलों में डिफ़ॉल्ट रूप से ये क्षमताएं होंगी।’

कंपनियों की पसंद के अनुसार इस शोध का समय विशेष रूप से प्रासंगिक है माइक्रोसॉफ्ट,