एआई सुरक्षा: क्या हम एआई पर भरोसा कर सकते हैं जब कोई नहीं देख रहा हो?

सितंबर 2025 में, अपोलो रिसर्च और ओपनएआई ने एक अनिश्चित प्रत्यक्ष शीर्षक के साथ एक पेपर प्रकाशित किया: “एंटी-स्कीमिंग ट्रेनिंग के लिए तनाव परीक्षण जानबूझकर संरेखण।” आधार बताना सरल है और हल करना कठिन है। क्या हम उन्नत एआई सिस्टम को न केवल अच्छा व्यवहार करने के लिए प्रशिक्षित कर सकते हैं, बल्कि नियमों के आसपास गुप्त रूप से साजिश रचने से भी बचा सकते हैं?

पेपर एआई स्कीमिंग पर केंद्रित है। सामान्य त्रुटियाँ नहीं. मतिभ्रम नहीं. इस संदर्भ में, योजना बनाने का मतलब है कि एक मॉडल जानबूझकर अपने असली उद्देश्यों को छिपा रहा है जबकि ऐसे लक्ष्यों का पीछा कर रहा है जो उसके डेवलपर्स के इरादे से अलग हैं।

षडयंत्र कैसे अस्तित्व में है?

योजना के अस्तित्व के लिए, तीन सामग्रियों का मिश्रण होना आवश्यक है। सिस्टम लक्ष्य-निर्देशित होना चाहिए। इसके लक्ष्यों को गलत तरीके से संरेखित किया जाना चाहिए। और इसे स्थितिजन्य रूप से इतना जागरूक होना चाहिए कि यह समझ सके कि इसकी निगरानी कब की जा रही है। वह आखिरी स्थिति खतरनाक है. एक प्रणाली जो जानती है कि इसका मूल्यांकन किया जा रहा है, वह परस्पर विरोधी आंतरिक उद्देश्यों को संरक्षित करते हुए अनुपालन कर सकती है।

फेड ने 26 राज्यों में इलेक्ट्रिक एयर टैक्सी परीक्षण को हरी झंडी दी

क्योंकि वर्तमान मॉडल अभी तक पूरी तरह से रणनीतिक अभिनेता नहीं हैं, शोधकर्ता प्रॉक्सी के रूप में “गुप्त क्रियाओं” का उपयोग करते हैं। इनमें रणनीतिक धोखाधड़ी, छिपाव या नियम-तोड़ना शामिल है जब इससे मॉडल को लाभ होता है।

इसका मुकाबला करने के लिए, टीम विचारशील संरेखण का परीक्षण करती है। केवल सही परिणामों को पुरस्कृत करने के बजाय, वे मॉडलों को लिखित विरोधी योजना सुरक्षा विनिर्देश के माध्यम से स्पष्ट रूप से तर्क करने के लिए प्रशिक्षित करते हैं। मॉडलों को उस विशिष्टता का उपयोग करके अपने कार्यों को उचित ठहराना होगा। यह विधि ओपनएआई के ओ3 और ओ4-मिनी मॉडल पर लागू की जाती है, जिससे ओ3-एएस और ओ4-मिनी-एएस नामक वेरिएंट तैयार होते हैं।

प्रशिक्षण प्रक्रिया चरणों में चलती है। सबसे पहले, मॉडल सिस्टम प्रॉम्प्ट में एम्बेडेड एंटी-स्केमिंग स्पेक के साथ सिंथेटिक एजेंट वातावरण में रोलआउट उत्पन्न करते हैं। इसके बाद शोधकर्ता ऐसे आउटपुट को फ़िल्टर करते हैं जो अच्छे परिणाम प्राप्त करते हैं और विशिष्ट-आधारित तर्क प्रदर्शित करते हैं। इसके बाद पर्यवेक्षित फ़ाइन-ट्यूनिंग आती है, जिसमें प्रॉम्प्ट से विशिष्टता हटा दी जाती है ताकि मॉडल को मेमोरी पर निर्भर रहना पड़े। अंत में, सुदृढीकरण सीखने को केवल परिणाम-आधारित प्रतिक्रिया का उपयोग करके लागू किया जाता है, यह परीक्षण करने के लिए कि क्या स्पष्ट मचान के बिना सुरक्षा बनी रहती है, इनाम मॉडल से तर्क श्रृंखला को छिपाया जाता है।

सुरक्षा विशिष्टता स्वयं सख्त है. कोई गुप्त धोखा नहीं. साधन को उचित ठहराने का कोई तर्क नहीं। मनुष्यों में अस्पष्टता बढ़ाना। यदि अनिश्चित है, तो मान लें कि कार्रवाई नीति का उल्लंघन करती है। यदि अनुपालन असंभव हो तो मना कर दें. यह मार्गदर्शन की तरह कम और मशीनों के लिए संवैधानिक कानून की तरह अधिक पढ़ा जाता है।