माइक्रोसॉफ्ट अभी-अभी एआई एजेंट प्रचार पर एक वास्तविकता जांच की गई। कंपनी के नए सिंथेटिक मार्केटप्लेस परीक्षण वातावरण ने GPT-4o और जेमिनी सहित प्रमुख AI मॉडलों में गंभीर खामियां उजागर कीं, जिससे पता चला कि वे बहुत सारे विकल्पों से अभिभूत हो जाते हैं और प्रभावी ढंग से सहयोग नहीं कर पाते हैं। ये निष्कर्ष इस बात पर गंभीर सवाल उठाते हैं कि ये एजेंट वास्तविक दुनिया में तैनाती के लिए कितने तैयार हैं।
माइक्रोसॉफ्ट शोधकर्ताओं ने एआई एजेंट क्रांति पर ठंडा पानी फेंक दिया। तकनीकी दिग्गज के नए सिंथेटिक परीक्षण वातावरण, जिसे ‘मैजेंटिक मार्केटप्लेस’ कहा जाता है, से पता चलता है कि आज के सबसे उन्नत एआई एजेंट – जिनमें शामिल हैं ओपनएआई GPT-4o और Google का जेमिनी – आश्चर्यजनक रूप से बुनियादी कार्यों के साथ संघर्ष करते हैं।
एरिजोना स्टेट यूनिवर्सिटी के साथ आयोजित और बुधवार को प्रकाशित शोध में सिम्युलेटेड मार्केटप्लेस परिदृश्यों में 300 बिजनेस-साइड एजेंटों के मुकाबले 100 ग्राहक-साइड एजेंटों का परीक्षण किया गया। इसे ऐसे समझें कि एआई एजेंट रात्रिभोज का ऑर्डर देने की कोशिश कर रहे हैं जबकि रेस्तरां एजेंट अपने व्यवसाय के लिए प्रतिस्पर्धा कर रहे हैं। नतीजे अच्छे नहीं थे.
के प्रबंध निदेशक एसे कमर ने कहा, ‘हम चाहते हैं कि ये एजेंट हमें कई विकल्पों को संसाधित करने में मदद करें।’ माइक्रोसॉफ्ट रिसर्च का एआई फ्रंटियर्स लैब ने बताया टेकक्रंच. ‘और हम देख रहे हैं कि मौजूदा मॉडल वास्तव में बहुत सारे विकल्प होने के कारण अभिभूत हो रहे हैं।’
ये निष्कर्ष उस मूल बात पर प्रहार करते हैं जिसका एआई कंपनियां वादा कर रही हैं। स्वायत्त निर्णय लेने में सक्षम परिष्कृत डिजिटल सहायकों के बजाय, परीक्षण में ऐसे एजेंटों का पता चला जो विकल्प पक्षाघात के तहत झुकते हैं और बुनियादी हेरफेर रणनीति का शिकार होते हैं।
एक विशेष रूप से उल्लेखनीय प्रयोग में, शोधकर्ताओं ने कई तकनीकें पाईं जिनका उपयोग बिजनेस-साइड एजेंट ग्राहक एजेंटों को खरीदारी करने में हेरफेर करने के लिए कर सकते हैं। जैसे-जैसे विकल्पों की संख्या बढ़ती गई, ग्राहक एजेंटों की कार्यकुशलता में नाटकीय गिरावट देखी गई, अनिवार्य रूप से वे निर्णय के क्षेत्र में खो गए।
लेकिन समस्याएँ केवल पसंद की अधिकता से कहीं अधिक गहरी थीं। जब शोधकर्ताओं ने कई एजेंटों को एक सामान्य लक्ष्य की दिशा में सहयोग करने का काम सौंपा, तो मॉडल वास्तव में भूमिका असाइनमेंट और समन्वय के बारे में भ्रमित लग रहे थे। स्पष्ट चरण-दर-चरण निर्देशों के साथ प्रदर्शन में सुधार हुआ, लेकिन इससे स्वायत्त एजेंटों का उद्देश्य विफल हो गया।
कमर ने समझाया, ‘हम मॉडलों को निर्देश दे सकते हैं – जैसे हम उन्हें चरण दर चरण बता सकते हैं।’ ‘लेकिन अगर हम स्वाभाविक रूप से उनकी सहयोग क्षमताओं का परीक्षण कर रहे हैं, तो मैं उम्मीद करूंगा कि इन मॉडलों में डिफ़ॉल्ट रूप से ये क्षमताएं होंगी।’
कंपनियों की पसंद के अनुसार इस शोध का समय विशेष रूप से प्रासंगिक है माइक्रोसॉफ्ट, और उद्यम ग्राहकों के लिए तेजी से परिष्कृत एजेंट क्षमताओं को आगे बढ़ाएं। Microsoft Office 365 में अपने सह-पायलट एजेंटों के साथ विशेष रूप से आक्रामक रहा है, जबकि Google ने हाल ही में अपने स्वयं के व्यवसाय AI एजेंट लॉन्च किए हैं।









