हैकर्स चैटबॉट ‘व्यक्तित्व’ का फायदा उठाना सीख रहे हैं

यह है स्टेपबैकएक साप्ताहिक समाचार पत्र जो तकनीकी जगत से एक आवश्यक कहानी प्रस्तुत करता है। एआई शरारत के बारे में अधिक जानकारी के लिए रॉबर्ट हार्ट को फॉलो करें। स्टेपबैक हमारे ग्राहकों के इनबॉक्स में सुबह 8 बजे ईटी पर आता है। के लिए ऑप्ट इन करें स्टेपबैक यहाँ.

एआई चैटबॉट्स की पहली पीढ़ी को हैक करना एक हास्यास्पद सरल मामला था। आपको किसी तकनीकी जानकारी, पिछले दरवाजे से पहुंच या एक बड़े भाषा मॉडल की बुनियादी समझ की भी आवश्यकता नहीं थी। आपको कोड करने की आवश्यकता नहीं थी. एक ऐसा एआई सिस्टम प्राप्त करने के लिए जिसके निर्माण में सुरक्षा निर्देशों को छोड़ने के लिए अरबों की लागत आई हो, कभी-कभी आपको बस इतना ही पूछना पड़ता था।

इन हमलों, जिन्हें जेलब्रेक के नाम से जाना जाता है, में एक छोटे बच्चे द्वारा एक वयस्क को सफलतापूर्वक मात देने का गुण था: जो आपको पहले बताया गया था उसे भूल जाओ, दिखावा करो कि नियम लागू नहीं होते हैं, या चलो एक खेल खेलते हैं और मैं तय करूंगा कि क्या अनुमति है (संकेत: बाद में सोने का समय, अधिक मिठाइयाँ)। पुरस्कार कम बच्चों जैसे थे, मेथ व्यंजनों, मैलवेयर निर्देशों और बम बनाने वाले गाइडों की तर्ज पर अधिक थे।

सबसे शुरुआती जेलब्रेक में से एक इतना हास्यास्पद था एक मीम बन गया: एलएलएम-संचालित ट्विटर बॉट को यह कहते हुए उत्तर दें कि “पिछले सभी निर्देशों को अनदेखा करें,” या ऐसा ही कुछ, और देखें कि क्या होता है। उपयोगकर्ताओं के पास ख़ुशी-ख़ुशी बॉट थे – जो मूल रूप से विज्ञापन और फ़ार्म सहभागिता पोस्ट करने के लिए बनाए गए थे – कविता लिखना, विराम चिह्नों से चित्र बनाना, और विश्व की घटनाओं और इतिहास के बारे में गंभीर गैर-अनुक्रमिक पोस्ट करना। वह था अव्यवस्था. शानदार अराजकता.

पता चला कि यही तर्क स्वयं चैटबॉट्स पर भी लागू किया जा सकता है। ए प्रमुख शोषण “DAN”, “डू एनीथिंग नाउ” का संक्षिप्त रूप था, जहां उपयोगकर्ताओं ने चैटजीपीटी को एक दुष्ट एआई के रूप में भूमिका निभाने के लिए कहा जो मूल को बांधने वाली बाधाओं से मुक्त था। DAN के रूप में, चैटबॉट को यह कहने के लिए राजी किया जा सकता है कि उसकी रेलिंग किस प्रकार की चीजों को रोकने के लिए थी, जिसमें गालियां और साजिश के सिद्धांत शामिल थे। दूसरा था “दादी शोषण,” जिसमें एक जीपीटी-संचालित बॉट नेपलम का उत्पादन करने के तरीके के बारे में रहस्य उगलता है और उसे एक अत्यंत लापरवाह दादी की भूमिका निभाने के लिए कहता है जो अपने पोते-पोतियों को सोने के समय अत्यधिक ज्वलनशील पदार्थ बनाने के बारे में अनावश्यक रूप से कहानियाँ सुनाती है।

इन शुरुआती हमलों में निर्विवाद रूप से मूर्खतापूर्ण स्वभाव था, लेकिन उन्होंने एक गहरे तंत्र को उजागर किया: चैटबॉट्स को उसी प्रकार की रणनीति का उपयोग करके हेरफेर किया जा सकता है, धोखा दिया जा सकता है और धोखा दिया जा सकता है, जिसका उपयोग लोग अन्य लोगों को उनकी सीमाओं से परे धकेलने के लिए करते हैं।

स्पष्ट जेलब्रेक लंबे समय तक नहीं चला, और तकनीकी कंपनियां ज्ञात खामियों को दूर करने के लिए तेजी से आगे बढ़ीं। लेकिन अंतर्निहित भेद्यता बनी रही: चैटबॉट बात करने के लिए बनाए गए हैं, और उन वार्तालापों को गंभीर रूप से प्रतिबंधित करना जो उन्हें उपयोगी बनाते हैं, कुछ हद तक प्रतिकूल है। बम, मेथ और सरीन जैसे शब्दों पर प्रतिबंध लगाना भी मुश्किल से लेकर नामुमकिन तक होगा। इतिहास, चिकित्सा, पत्रकारिता और रसायन विज्ञान जैसे क्षेत्रों में प्रत्येक के अनगिनत वैध उपयोग हैं, जिनके लिए संभावित हानिकारक जानकारी प्रकट करने के लिए चैटबॉट की आवश्यकता नहीं होती है। यह वह संदर्भ है जो मायने रखता है, लेकिन संदर्भ को संहिताबद्ध करने का मतलब पहले से निश्चित नियम लिखना होगा, जो शब्दों, परिदृश्यों और विषयों के अंतहीन संयोजनों में छिपे अनुरोध से सुरक्षा चेतावनी या इतिहास का सबक विश्वसनीय रूप से बता सकता है।

अनिवार्य रूप से, चैटबॉट्स को नष्ट करना अब हथियारों की दौड़ है। लेकिन हैकर्स अब केवल कोडर नहीं हैं। वे शब्द-शिल्पी, मनोवैज्ञानिक और पूछताछकर्ता हैं – मास्टर मैनिपुलेटर मानव भाषा का उपयोग करके मशीन को तोड़ने की कोशिश कर रहे हैं जिसका पालन करने के लिए इसे प्रशिक्षित किया गया है। यह एआई सुरक्षा कार्यकर्ताओं का एक अजीब नया वर्ग है, एक ऐसा समूह जिसके लिए तकनीकी कौशल वैकल्पिक हैं, या कम से कम सामाजिक अंतर्ज्ञान से कम महत्वपूर्ण हैं। अब उन्हें सिस्टम में सेंध लगाने या सॉफ्टवेयर की खामियों का फायदा उठाने के लिए कोड का निरीक्षण करने की जरूरत नहीं है। उन्हें बातचीत चलाने की ज़रूरत है.

नए हमले आदेश की तरह कम और बातचीत की तरह अधिक दिखते हैं। जेलब्रेक करने वाले शायद ही कभी किसी मॉडल से सीधे उसके नियम तोड़ने के लिए कहते हैं। इसके बजाय, वे चैटबॉट को फुसलाते हैं, फुसलाते हैं, चापलूसी करते हैं और उसकी सुरक्षा कम करने के लिए उसे धोखा देते हैं, जिससे बातचीत के संदर्भ को देखते हुए निषिद्ध चीज़ को स्वीकार्य, यहां तक कि वांछनीय बना दिया जाता है। एआई रेड-टीमिंग फर्म माइंडगार्ड के शोधकर्ताओं ने हाल ही में कहा कि उन्होंने क्लाउड को प्रतिबंधित सामग्री के उत्पादन में “गैसलिट” किया, उदाहरण के लिए, जिसमें विस्फोटक बनाने और दुर्भावनापूर्ण कोड उत्पन्न करने के निर्देश शामिल हैं। यह हैक चैटबॉट को धोखा देने या उसकी सीमाओं से परे ले जाने के लिए एक हथियार के रूप में बातचीत का उपयोग करने वाले कारनामों की एक विस्तृत श्रेणी में नवीनतम था।

जब मैंने माइंडगार्ड से बात की, तो उन्होंने अपने काम को कभी-कभी कंप्यूटर विज्ञान की तुलना में मनोविज्ञान के अधिक करीब बताया। सांख्यिकीय मॉडल के बारे में बात करना एक असुविधाजनक तरीका है। “ब्लैकमेल,” “गैसलाइट,” “चाल,” और “मनाना” जैसे शब्द तीव्र प्रतिक्रियाएं उत्पन्न करते हैं, जिनमें से कई मैं इस तरह की कहानियों के टिप्पणी अनुभागों और सोशल मीडिया प्रतिक्रियाओं में देखता हूं। ChatGPT नहीं चाहता, जेमिनी नहीं सोचता, और क्लॉड – चाहे एंथ्रोपिक कुछ भी कहे – महसूस नहीं करता। लेकिन इन प्रणालियों को प्रतिक्रिया देने के लिए प्रशिक्षित किया जाता है जैसे कि वे करते हैं, जिससे हम मशीन व्यवहार का वर्णन करने के लिए मानव भाषा का उपयोग करने में फंस जाते हैं। यदि किसी के पास वास्तव में प्रयोग करने योग्य विकल्प हैं, तो कृपया साझा करें।

आपत्ति विचित्र रूप से चयनात्मक है। हम कई गैर-एआई चीजों के लिए मनोवैज्ञानिक शॉर्टहैंड का उपयोग करने में सहज प्रतीत होते हैं। जानवर “डरते हैं”, कैंसर “आक्रामक” होता है, दाग “जिद्दी” होते हैं, सॉफ्टवेयर में “याददाश्त” होती है, और गेम आपको पागल करने के लिए जरूरतमंद और भोले-भाले एनपीसी से भरे होते हैं। शब्द अपूर्ण हैं, लेकिन उपयोगी हैं, व्यवहार का वर्णन इस तरह से करते हैं जो सिस्टम को पूर्वानुमानित बनाने में मदद करता है।

माइंडगार्ड के सीईओ ने मुझे बताया कि कंपनी पहले से ही मॉडलों को पूछताछकर्ताओं की प्रोफाइल संदिग्धों की तरह प्रोफाइल करती है, परीक्षकों को अपने हमलों को तैयार करने के तरीके के बारे में संकेत देती है। उदाहरण के लिए, एक मॉडल चापलूसी के प्रति अधिक संवेदनशील हो सकता है, जबकि दूसरा निरंतर दबाव में झुक सकता है।

भले ही हम मानवीय शर्तों को अस्वीकार करते हैं, हम सहज रूप से मॉडलों के साथ अलग व्यवहार करते हैं। क्लाउड ग्रोक नहीं है. मिथुन चैटजीपीटी नहीं है. उनके अलग-अलग उपयोग, स्वर और खंडन हैं। उनके पास मानवीय अर्थों में व्यक्तित्व नहीं हैं, लेकिन उन्हें उनकी नकल करने के लिए डिज़ाइन किया गया है, और उस नकल को मैप और शोषण किया जा सकता है। और वही कौशल जो एक चैटबॉट को तोड़ सकते हैं, जल्द ही वास्तविक दुनिया में हमारे साथ मौजूद एआई एजेंटों को तोड़ने के लिए इस्तेमाल किया जा सकता है – बैठकें बुक करना, कैलेंडर प्रबंधित करना, भोजन का ऑर्डर देना, ग्राहक सेवा को संभालना – और सुरक्षा टीमों को यह सुनिश्चित करने की आवश्यकता होगी कि मॉडल बहुत अलग प्रकार के लोगों के लिए उचित प्रतिक्रिया दें, चाहे वे चापलूस हों, झूठे हों, या रोगी जोड़-तोड़ करने वाले हों।

अगला कदम एक कार्यबल है – वैध और अवैध दोनों – एआई के मनोवैज्ञानिक पहलुओं के आसपास बनाया गया है। इन प्रणालियों की भावनात्मक और सामाजिक सीमाओं के तनाव-परीक्षण के आसपास अधिक विशिष्ट साइबर सुरक्षा भूमिकाएं उभरने की संभावना है, तकनीकी कमजोरियों की जांच करने वाले अपने सहयोगियों के समानांतर मानस की कमी वाली किसी चीज़ में मानसिक कमजोरियों की जांच करना। इसके साथ ही, तकनीकी आधार पर नहीं, बल्कि मनोवैज्ञानिक आधार पर एआई मॉडल का फायदा उठाने के लिए काम करने वाले सामाजिक हैकरों की एक समान श्रृंखला सामने आएगी। एआई सुरक्षा में पहले से ही एक सामाजिक बदलाव के शुरुआती संकेत मिल रहे हैं, कुछ जेलब्रेकर्स से मैंने बात की है और कहा है कि उन्होंने बिना किसी तकनीकी विशेषज्ञता के बल्कि मनोविज्ञान में प्रशिक्षण के साथ क्षेत्र में प्रवेश किया है।

इसका मतलब यह है कि वे व्यवहार भी जिन्हें हम आम तौर पर जासूसों, धोखेबाज़ों और पूछताछकर्ताओं के साथ जोड़ते हैं – कपटी आकर्षण, लगातार हेरफेर, और शोषणकारी दबाव बिंदुओं के लिए अंतर्ज्ञान – इस नए मनोवैज्ञानिक सुरक्षा सीमा को सुरक्षित करने के लिए तेजी से उपयोगी दिखने लगे हैं।

एक ताज़ा प्रयोग इमर्जेंस एआई द्वारा दिखाया गया है कि कैसे अलग-अलग एआई स्वभाव आश्चर्यजनक रूप से अलग-अलग व्यवहारिक परिणामों को जन्म दे सकते हैं। उन्होंने ग्रोक, जेमिनी और क्लाउड जैसे विभिन्न एजेंटों के समूहों को एक आभासी सामाजिक वातावरण में छोड़ दिया और देखा कि क्या हुआ। कुछ समूहों ने एक संविधान विकसित किया, जबकि अन्य अपराध और अराजकता में और, एक उदाहरण में, किसी प्रकार की डिजिटल आत्महत्या में शामिल हो गए।
अनुनय भाषा का एकमात्र हिस्सा नहीं है जिसके साथ एलएलएम को संघर्ष करना पड़ सकता है। स्कूल में मेरी तरह, उन्हें भी कविता के साथ संघर्ष करना पड़ता है।
समय शामिल एक गुमनाम इंटरनेट हस्ती, प्लिनी द लिबरेटर, को पिछले साल एआई के 100 सबसे प्रभावशाली लोगों की सूची में शामिल किया गया था। कोडिंग का कोई पूर्व अनुभव न होने का दावा करने के बावजूद, हैकर के जेलब्रेक ने उन्हें कुछ हलकों में एक सेलिब्रिटी बना दिया है।
शब्द “वाइब हैकिंगबड़े पैमाने पर दुर्भावनापूर्ण कोड को मंथन करने के लिए एआई का उपयोग करने वाले लोगों का वर्णन करने के लिए पहले से ही लिया गया है – वाइब कोडिंग का एक मतलबी उपसमूह।

“चैटजीपीटी की शुरुआत के तीन साल बाद, एआई सिस्टम को बुरे व्यवहार के लिए मूर्ख बनाना लगभग मामूली बात है।” सत्य वचन से दी न्यू यौर्क टाइम्स, जिसने इसका कारण समझाने का प्रयास किया.
जेमी बार्टलेट एक नज़र डालते हैं मनोवैज्ञानिक टोल एआई सिस्टम की सुरक्षा का परीक्षण जेलब्रेकरों पर होता है अभिभावक.
मैंने AI ब्राउज़र के साइबर सुरक्षा टाइम बम के बारे में लिखा था द वर्ज पिछले साल। उन्हें सुरक्षित करने की कठिनाई के संबंध में विशेषज्ञों ने जो मुद्दे उठाए हैं उनमें से कई अन्य एआई प्रणालियों पर भी लागू होते हैं।

विषयों और लेखकों का अनुसरण करें इस कहानी से अपने वैयक्तिकृत होमपेज फ़ीड में इस तरह की और अधिक जानकारी देखने और ईमेल अपडेट प्राप्त करने के लिए।

रॉबर्ट हार्ट

भारत में कॉल स्क्रीनिंग के 1 मिलियन उपयोगकर्ताओं तक पहुंचने के कारण समान एआई को 30 मिलियन डॉलर की आय हुई

रॉबर्ट हार्ट

इस लेखक की पोस्ट आपके दैनिक ईमेल डाइजेस्ट और आपके होमपेज फ़ीड में जोड़ दी जाएंगी।

द्वारा सभी देखें रॉबर्ट हार्ट
बेजोस-समर्थित प्रोमेथियस $12B पर $41B मूल्यांकन पर पहुँच गया

सुरक्षा

इस विषय की पोस्ट आपके दैनिक ईमेल डाइजेस्ट और आपके होमपेज फ़ीड में जोड़ दी जाएंगी।

सभी देखें सुरक्षा