एआई का गंदा रहस्य: यह अभी भी पीडीएफ को ठीक से नहीं पढ़ सकता है

जब हाउस ओवरसाइट कमेटी ने पिछले नवंबर में एप्सटीन दस्तावेज़ों के 20,000 पृष्ठों और उसके बाद न्याय विभाग की 3 मिलियन से अधिक फाइलों को हटा दिया, तो इसने कृत्रिम बुद्धिमत्ता के बारे में एक अजीब सच्चाई को उजागर किया: अरबों निवेश और अंतहीन प्रचार के बावजूद, एआई अभी भी सबसे बुनियादी डिजिटल कार्यों में से एक – पीडीएफ पढ़ना – के साथ संघर्ष कर रहा है। ल्यूक इगेल और उनकी टीम ने विकृत ईमेल थ्रेड्स और बमुश्किल खोजे जा सकने वाले दस्तावेज़ों के माध्यम से विश्लेषण करने की कोशिश करते हुए इसे प्रत्यक्ष रूप से खोजा, जिससे एआई की वादा की गई क्षमताओं और मौलिक दस्तावेज़ प्रसंस्करण पर इसके वास्तविक दुनिया के प्रदर्शन के बीच भारी अंतर का पता चला।

एआई उद्योग को तर्क मॉडल, मल्टीमॉडल समझ और कृत्रिम सामान्य बुद्धि के बारे में बात करना पसंद है। लेकिन पिछले नवंबर में, जब वास्तविक सरकारी दस्तावेज़ इंटरनेट पर आ गए, तो प्रौद्योगिकी का चेहरा कहीं अधिक सांसारिक चीज़ पर केंद्रित हो गया: पीडीएफ से पाठ पढ़ना।

ओपनएआई ने एक्सएआई के व्यापार रहस्य मुकदमे को हराया

ल्यूक इगेल और उनके दोस्त हाउस ओवरसाइट कमेटी के बड़े पैमाने पर एप्सटीन दस्तावेज़ जारी कर रहे थे, ईमेल वार्तालापों को एक साथ जोड़ने और खोजी धागों का पालन करने की कोशिश कर रहे थे। अनुभव, उनके शब्दों में, “बेकार” था। विभाग का न्याय ने ऑप्टिकल कैरेक्टर रिकग्निशन सॉफ़्टवेयर के साथ फ़ाइलों को संसाधित किया था, लेकिन परिणाम निराशाजनक थे। ईमेल विकृत दिखाई दिए. पाठ खोजों से कुछ नहीं मिला. इंटरफ़ेस व्यावहारिक रूप से अनुपयोगी था.

फिर असली परीक्षा हुई. अगले महीनों में, डीओजे ने 3 मिलियन से अधिक अतिरिक्त फ़ाइलें जारी कीं। सभी पीडीएफ. सभी को उसी टूटी हुई OCR तकनीक की आवश्यकता है जो पहले ही विफल हो चुकी थी।

यह कोई अजीब मामला या अस्पष्ट तकनीकी चुनौती नहीं है। हम डिजिटल दस्तावेजों से टाइप किए गए पाठ को पढ़ने के बारे में बात कर रहे हैं – कुछ ऐसा जो कंप्यूटर दशकों से करने में सक्षम है। फिर भी हम यहां 2026 में हैं ओपनएआई 300 अरब डॉलर के मूल्यांकन पर अरबों डॉलर जुटाना और हर तकनीकी दिग्गज यह दावा करता है कि उसका एआई छवियों, वीडियो और मानवीय तर्क को समझ सकता है, लेकिन सरकारी एजेंसियां ​​अभी भी दस्तावेज़ों को खोजने योग्य नहीं बना सकती हैं।

एंथ्रोपिक के साथ एआई को बढ़ावा देने के लिए पेंटागन ने उबर एक्जीक्यूटिव को टैप किया

पीडीएफ समस्या वर्तमान एआई बूम के बारे में कुछ असहजता प्रकट करती है। जबकि कंपनियाँ एआई के आकर्षक प्रदर्शनों में कविता लिखने या वीडियो बनाने में संसाधन लगाती हैं, बुनियादी ढाँचे का काम – वह सामान जो वास्तव में दिन-प्रतिदिन के व्यावसायिक कार्यों के लिए मायने रखता है – निराशाजनक रूप से टूटा हुआ रहता है।