यहाँ मीरा मुराती की AI कंपनी क्या कर रही है

सोचने वाली मशीनेंपूर्व द्वारा स्थापित एआई स्टार्टअप ओपनएआई सीटीओ मीरा मुराती ने अपनी चुप्पी तोड़ी। कंपनी ने सोमवार को घोषणा की कि वह “इंटरेक्शन मॉडल” का निर्माण कर रही है – एआई की एक नई नस्ल जो लगातार ऑडियो, वीडियो और टेक्स्ट को एक साथ संसाधित करती है, उपयोगकर्ताओं के बोलने या टाइप करने की प्रतीक्षा करने के बजाय वास्तविक समय में प्रतिक्रिया देती है। पिछले सितंबर में ओपनएआई छोड़ने के बाद यह मुराती का पहला बड़ा खुलासा है, और यह संकेत देता है कि वह इस बात पर पुनर्विचार करने पर बड़ा दांव लगा रही है कि इंसान और एआई जमीनी स्तर से कैसे सहयोग करते हैं।

सोचने वाली मशीनें आख़िरकार अपने पत्ते दिखा रहा है। एआई स्टार्टअप की स्थापना मीरा मुराती ने की, जिन्होंने वर्षों बिताए ओपनएआईपिछले पतझड़ में अपने हाई-प्रोफाइल प्रस्थान से पहले मुख्य प्रौद्योगिकी अधिकारी ने सोमवार को घोषणा की कि वह “इंटरैक्शन मॉडल” पर काम कर रही है – एआई सिस्टम को मनुष्यों के साथ सहयोग करने के लिए डिज़ाइन किया गया है जिस तरह से लोग वास्तव में एक साथ काम करते हैं, न कि रुक-रुक कर आगे-पीछे के माध्यम से जो आज के चैटबॉट्स को परिभाषित करता है।

पिच भ्रामक रूप से सरल लेकिन तकनीकी रूप से महत्वाकांक्षी है। के अनुसार कंपनी की घोषणाये मॉडल “लगातार ऑडियो, वीडियो और टेक्स्ट लेंगे, और वास्तविक समय में सोचेंगे, प्रतिक्रिया देंगे और कार्य करेंगे।” चैटजीपीटी या क्लाउड जैसे सिस्टम आज कैसे काम करते हैं, यह उससे मौलिक विचलन है, जहां एआई अनिवार्य रूप से तब तक निष्क्रिय रहता है जब तक आप सेंड को हिट नहीं करते।

“आज के मॉडल वास्तविकता को एक सूत्र में पिरोते हैं,” सोचने वाली मशीनें ब्लॉग पोस्ट में बताया गया है। “जब तक उपयोगकर्ता टाइपिंग या बोलना समाप्त नहीं कर लेता, तब तक मॉडल प्रतीक्षा करता है और उसे इस बात का कोई एहसास नहीं होता कि उपयोगकर्ता क्या कर रहा है या उपयोगकर्ता इसे कैसे कर रहा है।” यह एक ऐसी सीमा है जिसे अधिकांश उपयोगकर्ताओं ने इसे समझे बिना ही आत्मसात कर लिया है – एआई सहायक द्वारा आपके प्रश्न को संसाधित करते समय अजीब ठहराव, बीच-बीच में प्रतिक्रिया को बाधित करने या पाठ्यक्रम-सही करने में असमर्थता, प्राकृतिक वार्तालाप प्रवाह की कमी।

मुराती की शर्त यह है कि इस पैटर्न को तोड़ने के लिए एआई आर्किटेक्चर पर नए सिरे से विचार करने की आवश्यकता है। अनुक्रमिक प्रसंस्करण के बजाय – सुनें, फिर सोचें, फिर प्रतिक्रिया दें – इंटरैक्शन मॉडल एक साथ सूचना की कई धाराओं को संभालेंगे। एक एआई की कल्पना करें जो बोलते समय स्क्रीन पर आपके हाव-भाव को देख सके, आपकी झिझक को समझ सके और आपके वाक्य पूरा करने से पहले ही अपनी प्रतिक्रिया को समायोजित कर सके। यही दृष्टि है सोचने वाली मशीनें पीछा कर रहा है.

तो कृपया अमेज़ॅन प्राइम पर काम करें

समय बता रहा है. मुराती चला गया ओपनएआई सितंबर 2024 में शेफर्ड जीपीटी-4 की मदद करने और कंपनी को मल्टीमॉडल एआई की ओर मोड़ने के बाद। सीईओ सैम ऑल्टमैन के संक्षिप्त निष्कासन और बहाली के बाद, उनका प्रस्थान ओपनएआई के लिए एक अशांत अवधि के दौरान हुआ। वह अकेली नहीं थी – कई वरिष्ठ तकनीकी नेताओं ने प्रतिस्पर्धी उद्यम शुरू करने के लिए छोड़ दिया है, जिससे एआई प्रतिभा पलायन को एक उद्योग पैटर्न में बदल दिया गया है।

लेकिन जबकि अन्य लोगों ने बड़े पैमाने पर फंडिंग जुटाई है या उत्पादों को बाजार में उतारा है, सोचने वाली मशीनें अब तक अपेक्षाकृत शांत रहा है। कंपनी ने फंडिंग विवरण या उत्पाद समयरेखा का खुलासा नहीं किया है। सोमवार की घोषणा एक उत्पाद लॉन्च की तुलना में एक शोध घोषणापत्र की तरह लगती है – विशिष्ट क्षमताओं या रिलीज की तारीखों के लिए प्रतिबद्धता के बिना एक तकनीकी दृष्टि प्रस्तुत करना।

यह या तो अनुशासित संयम है या एक संकेत है कि तकनीक अभी भी शुरुआती दौर में है। रीयल-टाइम मल्टीमॉडल एआई को लागू करना असाधारण रूप से कठिन है। गूगल प्रोजेक्ट एस्ट्रा के माध्यम से इसका प्रयोग किया है, ओपनएआई GPT-4 के उन्नत वॉयस मोड डेमो में समान क्षमताओं को छेड़ा गया, और मेटा वीआर संदर्भों में इसकी खोज की है। किसी ने भी ऐसा कुछ नहीं भेजा है जो वास्तव में निरंतर, प्राकृतिक सहयोग जैसा लगता हो।

तकनीकी बाधाएँ बहुत बड़ी हैं। सुसंगत प्रतिक्रियाएँ उत्पन्न करते समय एक साथ कई इनपुट स्ट्रीम को संसाधित करने के लिए न केवल कच्ची गणना शक्ति की आवश्यकता होती है, बल्कि पूरी तरह से नए आर्किटेक्चर की भी आवश्यकता होती है। विलंबता गंभीर हो जाती है – कोई भी देरी वास्तविक समय की बातचीत के भ्रम को तोड़ देती है। और मॉडलों को रुकावटों, संदर्भ स्विचों और मनुष्य वास्तव में कैसे संवाद करते हैं इसकी गंदी वास्तविकता को संभालने की आवश्यकता है, जो कि स्वच्छ त्वरित-प्रतिक्रिया पैटर्न एआई मॉडल को प्रशिक्षित करने जैसा कुछ नहीं है।

फिर भी, यदि किसी के पास यह प्रयास करने की वंशावली है, तो वह मुराती है। उनके कार्यकाल के दौरान ओपनएआईउन्होंने DALL-E, GPT-4, और ChatGPT के विकास का निरीक्षण किया – ऐसे उत्पाद जिन्होंने मूल रूप से उस चीज़ को बदल दिया जो लोगों का मानना ​​था कि AI कर सकता है। वह यह भी शर्त लगा रही है कि अगली छलांग सिर्फ बड़े मॉडल या अधिक पैरामीटर नहीं है, बल्कि मानव-एआई इंटरैक्शन के बारे में सोचने के मौलिक रूप से अलग-अलग तरीके हैं।

प्रतिस्पर्धी परिदृश्य भीड़भाड़ वाला है और यह और भी अधिक होता जा रहा है। anthropic संवैधानिक एआई और लंबी संदर्भ विंडो पर जोर दे रहा है। गूगल डीपमाइंड रीजनिंग मॉडल और मल्टीमॉडल इंटीग्रेशन पर दांव लगा रहा है। माइक्रोसॉफ्टसमर्थित ओपनएआई माइंडशेयर और वितरण पर हावी रहना जारी है। और पूर्व बड़े तकनीकी एआई नेताओं द्वारा स्थापित एक दर्जन अच्छी तरह से वित्त पोषित स्टार्टअप बड़े भाषा मॉडल के बाद आने वाले कुछ अलग दृष्टिकोण का पीछा कर रहे हैं।

द क्राइटेरियन कलेक्शन पर अभी हर चीज़ पर 30 प्रतिशत की छूट है

सोचने वाली मशीनें खुद को वृद्धिशील सुधारों से कहीं अधिक बुनियादी चीजों से निपटने के रूप में स्थापित कर रहा है। कंपनी की फ़्रेमिंग से पता चलता है कि वह वर्तमान एआई को एक ऐसे प्रतिमान में फंसी हुई मानती है जो स्वाभाविक रूप से सीमित है – और वास्तविक प्रगति के लिए उस प्रतिमान से पूरी तरह से बाहर निकलने की आवश्यकता है, न कि केवल इसे तेज़ या अधिक सक्षम बनाने की।

यह देखना अभी बाकी है कि वह दृष्टिकोण वास्तविक उत्पादों में परिवर्तित होता है या नहीं। एआई उद्योग महत्वाकांक्षी तकनीकी दृष्टियों से भरा पड़ा है जो कभी भी अनुसंधान चरण से आगे नहीं बढ़ पाया। लेकिन मुराती का ट्रैक रिकॉर्ड और एक विशिष्ट, तकनीकी रूप से आधारित समस्या की स्पष्ट अभिव्यक्ति से पता चलता है सोचने वाली मशीनें यह सब कुछ बदलने के सामान्य वादे वाला एक और एआई स्टार्टअप नहीं है।

मुराती की घोषणा थिंकिंग मशीन्स को एआई के लिए मौलिक रूप से अलग दृष्टिकोण पर दांव लगाती है – न केवल मौजूदा चैटबॉट्स में वृद्धिशील सुधार, बल्कि एआई सिस्टम दुनिया को कैसे समझते हैं और कैसे प्रतिक्रिया देते हैं, इसकी एक पुनर्कल्पना। यह एक महत्वाकांक्षी तकनीकी चुनौती है जो आज की एआई इंटरैक्शन में सबसे स्पष्ट सीमाओं में से एक से निपटती है। लेकिन वर्तमान एआई परिदृश्य में महत्वाकांक्षी दृष्टिकोण सस्ते हैं। असली परीक्षा यह होगी कि क्या थिंकिंग मशीनें वास्तव में कुछ ऐसा भेज सकती हैं जो इस वादे को पूरा करती है, और क्या डेवलपर्स और उपयोगकर्ता एक और एआई प्लेटफॉर्म को अपनाने के लिए वास्तविक समय की बातचीत के बारे में पर्याप्त परवाह करेंगे। अभी के लिए, इसे संभावित रूप से पूरा करने की योग्यता रखने वाले किसी व्यक्ति की ओर से यह एक सम्मोहक दृष्टिकोण है – लेकिन जैसे-जैसे प्रतियोगी समान लक्ष्यों की ओर दौड़ रहे हैं, समय बीतता जा रहा है।