एआई शोध पत्र बेहतर हो रहे हैं, और यह वैज्ञानिकों के लिए एक बड़ी समस्या है

अकादमिक प्रकाशन एआई-जनित ढलान में डूब रहा है, और यह वैज्ञानिक रिकॉर्ड को उन तरीकों से विकृत कर रहा है जिन्हें शोधकर्ता अभी समझना शुरू कर रहे हैं। सांख्यिकीय विधियों पर 2017 का एक पेपर पिछली गर्मियों में अचानक सैकड़ों उद्धरणों के साथ फैल गया – इसलिए नहीं कि यह अभूतपूर्व हो गया, बल्कि इसलिए कि एआई पेपर मिलों ने इसके संदर्भ गढ़ना शुरू कर दिया। समस्या इतनी गंभीर हो गई है कि वैध शोधकर्ता सभी गलत कारणों से अपनी उद्धरण संख्या को आसमान छूते हुए देख रहे हैं, जबकि सहकर्मी समीक्षा प्रणाली तेजी से परिष्कृत मशीन-जनरेटेड सबमिशन को फ़िल्टर करने के लिए संघर्ष कर रही है।

पीटर डेगेन को उम्मीद नहीं थी कि उनके पोस्टडॉक्टरल पर्यवेक्षक बहुत अधिक उद्धरणों के बारे में शिकायत करेंगे। शिक्षा जगत में, उद्धरण मुद्रा हैं – जितना अधिक आपके काम को संदर्भित किया जाएगा, उतना बेहतर होगा। लेकिन जब पिछली गर्मियों में सांख्यिकीय तरीकों पर 2017 के पेपर में अचानक सैकड़ों नए उद्धरण आने लगे, तो कुछ गलत लगा।

पेपर ने वास्तविक शोधकर्ताओं से कुछ दर्जन उद्धरण प्राप्त करते हुए वर्षों तक एक शांत, सम्मानजनक जीवन जीया था। फिर बाढ़ शुरू हो गई. हर कुछ दिनों में, नए संदर्भ सामने आए, जिसने इसे उनके सलाहकार के करियर के सबसे उद्धृत कार्यों में से एक में बदल दिया। जांच का अनुरोध तुरंत आ गया.

डेगेन ने जो खुलासा किया उससे वैज्ञानिक प्रकाशन के माध्यम से फैल रहे संकट का पता चलता है। एआई-जनित शोध पत्र बड़े पैमाने पर अकादमिक पत्रिकाओं में घुसपैठ कर रहे हैं, और वे अपने साथ नकली उद्धरण ला रहे हैं। ये केवल निम्न-गुणवत्ता वाले प्रस्तुतीकरण को अस्वीकार नहीं किया जा रहा है – वे इतने परिष्कृत हैं कि सहकर्मी समीक्षा पास कर सकते हैं, वैज्ञानिक रिकॉर्ड को काल्पनिक संदर्भों और मनगढ़ंत निष्कर्षों के साथ प्रदूषित कर रहे हैं।

यांत्रिकी आश्चर्यजनक रूप से सरल हैं। एआई पेपर मिलें सतह पर वैध दिखने वाले शोध पत्र तैयार करने के लिए बड़े भाषा मॉडल का उपयोग करती हैं। इनमें उचित स्वरूपण, विश्वसनीय सार और व्यापक ग्रंथसूची शामिल हैं। उद्धरण वास्तविक प्रतीत होते हैं, जो वास्तविक प्रकाशित पत्रों की ओर इशारा करते हैं। लेकिन संदर्भ बकवास है – कागजात को उन दावों के लिए संदर्भित किया जाता है जो उन्होंने कभी नहीं किए, उन क्षेत्रों में जो उनकी वास्तविक सामग्री से पूरी तरह से असंबंधित हैं।

उन शोधकर्ताओं के लिए जिनके काम को बेतरतीब ढंग से उद्धृत किया जाता है, अनुभव अवास्तविक है। जिन उद्धरण संख्याओं को बनाने में वर्षों लगे वे महीनों में अचानक दोगुनी या तिगुनी हो गईं। लेकिन प्रभाव का संकेत देने के बजाय, ये बढ़े हुए आंकड़े संदूषण का प्रतिनिधित्व करते हैं। काम में संलग्न या निर्माण नहीं किया जा रहा है – इसे अकादमिक लेखन की नकल करने के लिए प्रशिक्षित एल्गोरिदम द्वारा इसे समझे बिना नाम दिया जा रहा है।

आपके Mac को साफ़ करने के लिए Mole सबसे अच्छा नया ऐप है

समस्या वैनिटी मेट्रिक्स से परे फैली हुई है। वैज्ञानिक प्रगति उद्धरण नेटवर्क के माध्यम से विचारों का पता लगाने में सक्षम होने पर निर्भर करती है, यह देखने के लिए कि ज्ञान कैसे बनता है और विकसित होता है। जब एआई की गड़बड़ी उस सिस्टम को नकली संदर्भों से भर देती है, तो वह टूट जाता है। शोधकर्ता उन उद्धरणों पर नज़र रखने में समय बर्बाद करते हैं जो कहीं नहीं ले जाते। साहित्य समीक्षाएँ मशीन-जनित शोर से वास्तविक विद्वत्ता को अलग करने का अभ्यास बन जाती हैं।

सहकर्मी समीक्षा, शैक्षणिक गुणवत्ता का पारंपरिक द्वारपाल, लाइन का पालन नहीं कर रहा है। वही एआई क्षमताएं जो विश्वसनीय कागजात तैयार करती हैं, उन्हें समीक्षकों से आगे निकलने में भी मदद करती हैं। वे उपयुक्त शब्दजाल का उपयोग करते हैं, पारंपरिक संरचनाओं का पालन करते हैं, और दोहराए गए पाठ या निरर्थक वाक्यों जैसे स्पष्ट लाल झंडों से बचते हैं। समीक्षक, पहले से ही सबमिशन वॉल्यूम से अभिभूत हैं, अक्सर यह सत्यापित करने के लिए समय या टूल की कमी होती है कि प्रत्येक उद्धरण वास्तव में उसके दावा किए गए उद्देश्य का समर्थन करता है।

कुछ पत्रिकाएँ एआई डिटेक्शन टूल से मुकाबला कर रही हैं, लेकिन यह हथियारों की दौड़ है जिसमें वे हार रहे हैं। जैसे-जैसे पता लगाने के तरीकों में सुधार होता है, वैसे-वैसे पेपर मिलों में भी सुधार होता है। मॉडल मानव लेखन पैटर्न की नकल करने में, अद्वितीय वाक्यांश उत्पन्न करने में बेहतर हो जाते हैं जो साहित्यिक चोरी चेकर्स को चकमा देते हैं, ऐसे तर्क तैयार करने में जो त्वरित समीक्षा पारित करने के लिए पर्याप्त सुसंगत लगते हैं।

इस प्रदूषण को बढ़ावा देने वाले आर्थिक प्रोत्साहन सीधे हैं। कई देशों में, अकादमिक पदोन्नति और फंडिंग प्रकाशन संख्या पर निर्भर करती है। पेपर मिलें क्रेडेंशियल्स के लिए उत्सुक शोधकर्ताओं को एआई-जनरेटेड अध्ययनों पर लेखकत्व बेचती हैं। एक शुल्क के लिए, आपका नाम एक प्रकाशन पर जाता है जो वास्तव में इसे एक वैध पत्रिका में शामिल कर सकता है। उद्धरण पैडिंग लगभग एक बोनस है – यह पूरे ऑपरेशन को अधिक विश्वसनीय बनाता है।

प्रकाशक एआई-जनरेटेड के रूप में पहचाने जाने वाले कागजात को वापस लेना शुरू कर रहे हैं, लेकिन नए सबमिशन की बाढ़ के साथ वापसी की गति बरकरार नहीं रह सकती है। हर स्पष्ट रूप से नकली कागज जो पकड़ा जाता है और खींचा जाता है, अन्य लोग साहित्य में छिप जाते हैं, जो उद्धरण मुद्रास्फीति और डेटाबेस प्रदूषण में योगदान करते हैं। कुछ शोधकर्ताओं का अनुमान है कि हजारों एआई-जनरेटेड पेपर पहले ही सहकर्मी समीक्षा और स्थायी अकादमिक अभिलेखागार में पहुंच चुके हैं।

यह संकट असहज सवालों को जन्म दे रहा है कि विज्ञान खुद को कैसे प्रमाणित करता है। यदि सहकर्मी समीक्षा मशीन-जनित पाठ से मानव छात्रवृत्ति को विश्वसनीय रूप से अलग नहीं कर सकती है, तो यह सिस्टम के बारे में क्या कहता है? यदि उद्धरणों की संख्या को बॉट्स द्वारा कृत्रिम रूप से बढ़ाया जा सकता है, तो उन्हें ट्रैक करने का क्या मतलब है? ये कोई काल्पनिक चिंताएँ नहीं हैं – ये नियुक्ति निर्णय, कार्यकाल समीक्षा और अभी हो रहे फंडिंग आवंटन को प्रभावित कर रहे हैं।

कुछ संस्थान अधिक परिष्कृत सत्यापन प्रक्रियाएँ विकसित कर रहे हैं। संयोजन में एकाधिक एआई डिटेक्टरों का उपयोग करके, उद्धरण संदर्भों को क्रॉस-रेफरेंसिंग करना, यह जांचना कि क्या संदर्भ वास्तव में उनके उद्धृत दावों का समर्थन करते हैं। लेकिन ये दृष्टिकोण श्रम-गहन और महंगे हैं, शायद उच्च जोखिम वाले प्रकाशनों के लिए व्यवहार्य हैं, लेकिन सभी विषयों में प्रतिदिन प्रस्तुत किए जाने वाले हजारों पेपरों के लिए नहीं।

ग्लासफ़ेसर-टैरिफ़ एक साल से भी कम समय में 10 यूरो से कम में उपलब्ध है

इस बीच, वैध शोधकर्ताओं को एक असंभव स्थिति का सामना करना पड़ता है। डेगेन के पर्यवेक्षक को यह तय करना था कि क्या उद्धरण मुद्रास्फीति को प्रचारित किया जाए – समस्या पर ध्यान आकर्षित किया जाए लेकिन संभावित रूप से पेपर के कथित महत्व को कम किया जाए – या चुप रहें और मेट्रिक्स को गलत तरीके से बोलने दें। जब वैज्ञानिक प्रभाव को मापने के लिए बनाई गई प्रणाली से समझौता किया गया हो तो कोई अच्छा विकल्प नहीं है।

अकादमिक समुदाय इंटरनेट के अन्य कोनों में पहले से ही परिचित वास्तविकता से अवगत हो रहा है: जब एआई सामग्री तैयार करने में काफी अच्छा हो जाता है, तो असली और नकली में अंतर करना तेजी से कठिन हो जाता है। सोशल मीडिया पोस्ट या उत्पाद समीक्षाओं के विपरीत, वैज्ञानिक पत्रों को प्रकाशन से पहले विशेषज्ञों द्वारा जांचा जाना चाहिए। वह जाँच विफल हो रही है, और इसके परिणाम अनुसंधान, शिक्षा और विज्ञान में जनता के विश्वास के माध्यम से सामने आ रहे हैं।

एआई पेपर मिल संकट बुनियादी कमजोरियों को उजागर करता है कि विज्ञान कैसे ज्ञान को मान्य और ट्रैक करता है। जैसे-जैसे मशीन-जनरेटेड सबमिशन अधिक परिष्कृत होते जा रहे हैं, अकादमिक प्रकाशन को एक अस्तित्वगत चुनौती का सामना करना पड़ रहा है: अखंडता को बनाए रखने के लिए सत्यापन प्रणालियों को तेजी से अनुकूलित करना, या एल्गोरिथम स्पैम के वजन के तहत उद्धरण नेटवर्क और सहकर्मी समीक्षा को ध्वस्त होते देखना। डेगेन के पर्यवेक्षक जैसे शोधकर्ताओं के लिए, बढ़ी हुई उद्धरण संख्या जश्न मनाने के लिए उपलब्धियां नहीं हैं – वे घेराबंदी के तहत एक प्रणाली के लक्षण हैं, जहां वैज्ञानिक प्रभाव को मापने के लिए मेट्रिक्स तेजी से प्रदूषण के अलावा कुछ भी नहीं मापते हैं।