एआई का गंदा रहस्य: यह अभी भी पीडीएफ को ठीक से नहीं पढ़ सकता है

जब हाउस ओवरसाइट कमेटी ने पिछले नवंबर में एप्सटीन दस्तावेज़ों के 20,000 पृष्ठों और उसके बाद न्याय विभाग की 3 मिलियन से अधिक फाइलों को हटा दिया, तो इसने कृत्रिम बुद्धिमत्ता के बारे में एक अजीब सच्चाई को उजागर किया: अरबों निवेश और अंतहीन प्रचार के बावजूद, एआई अभी भी सबसे बुनियादी डिजिटल कार्यों में से एक – पीडीएफ पढ़ना – के साथ संघर्ष कर रहा है। ल्यूक इगेल और उनकी टीम ने विकृत ईमेल थ्रेड्स और बमुश्किल खोजे जा सकने वाले दस्तावेज़ों के माध्यम से विश्लेषण करने की कोशिश करते हुए इसे प्रत्यक्ष रूप से खोजा, जिससे एआई की वादा की गई क्षमताओं और मौलिक दस्तावेज़ प्रसंस्करण पर इसके वास्तविक दुनिया के प्रदर्शन के बीच भारी अंतर का पता चला।

एआई उद्योग को तर्क मॉडल, मल्टीमॉडल समझ और कृत्रिम सामान्य बुद्धि के बारे में बात करना पसंद है। लेकिन पिछले नवंबर में, जब वास्तविक सरकारी दस्तावेज़ इंटरनेट पर आ गए, तो प्रौद्योगिकी का चेहरा कहीं अधिक सांसारिक चीज़ पर केंद्रित हो गया: पीडीएफ से पाठ पढ़ना।

जब आप गैलेक्सी एस26 फोन आरक्षित करते हैं तब भी आप सैमसंग क्रेडिट में $30 प्राप्त कर सकते हैं

ल्यूक इगेल और उनके दोस्त हाउस ओवरसाइट कमेटी के बड़े पैमाने पर एप्सटीन दस्तावेज़ जारी कर रहे थे, ईमेल वार्तालापों को एक साथ जोड़ने और खोजी धागों का पालन करने की कोशिश कर रहे थे। अनुभव, उनके शब्दों में, “बेकार” था। विभाग का न्याय ने ऑप्टिकल कैरेक्टर रिकग्निशन सॉफ़्टवेयर के साथ फ़ाइलों को संसाधित किया था, लेकिन परिणाम निराशाजनक थे। ईमेल विकृत दिखाई दिए. पाठ खोजों से कुछ नहीं मिला. इंटरफ़ेस व्यावहारिक रूप से अनुपयोगी था.

फिर असली परीक्षा हुई. अगले महीनों में, डीओजे ने 3 मिलियन से अधिक अतिरिक्त फ़ाइलें जारी कीं। सभी पीडीएफ. सभी को उसी टूटी हुई OCR तकनीक की आवश्यकता है जो पहले ही विफल हो चुकी थी।

यह कोई अजीब मामला या अस्पष्ट तकनीकी चुनौती नहीं है। हम डिजिटल दस्तावेजों से टाइप किए गए पाठ को पढ़ने के बारे में बात कर रहे हैं – कुछ ऐसा जो कंप्यूटर दशकों से करने में सक्षम है। फिर भी हम यहां 2026 में हैं ओपनएआई 300 अरब डॉलर के मूल्यांकन पर अरबों डॉलर जुटाना और हर तकनीकी दिग्गज यह दावा करता है कि उसका एआई छवियों, वीडियो और मानवीय तर्क को समझ सकता है, लेकिन सरकारी एजेंसियां ​​अभी भी दस्तावेज़ों को खोजने योग्य नहीं बना सकती हैं।

सैमसंग ने 77 जीत और दो स्वर्ण के साथ आईएफ डिज़ाइन पुरस्कार जीते

पीडीएफ समस्या वर्तमान एआई बूम के बारे में कुछ असहजता प्रकट करती है। जबकि कंपनियाँ एआई के आकर्षक प्रदर्शनों में कविता लिखने या वीडियो बनाने में संसाधन लगाती हैं, बुनियादी ढाँचे का काम – वह सामान जो वास्तव में दिन-प्रतिदिन के व्यावसायिक कार्यों के लिए मायने रखता है – निराशाजनक रूप से टूटा हुआ रहता है।