SAMSUNG हाल ही में गैलेक्सी बड्स4 प्रो की क्रिस्टल-क्लियर कॉल्स के पीछे की इंजीनियरिंग का अनावरण किया गया है, और यह एक छोटे पैकेज में गंभीर एआई हॉर्सपावर को भरने में एक मास्टरक्लास है। कंपनी ने अपने डीप न्यूरल नेटवर्क की प्रसंस्करण आवश्यकताओं को मूल लोड के केवल 10% तक कम कर दिया, जबकि मॉडल को उसके आकार के 30% तक छोटा कर दिया – यह सुनिश्चित करने के लिए कि आपकी आवाज़ सबवे अराजकता और सड़क शोर के माध्यम से कट जाए। यह उस प्रकार का अनुकूलन है जो ऑन-डिवाइस AI को वास्तव में वास्तविक दुनिया में काम करता है, न कि केवल स्पेक शीट पर।
SAMSUNG कॉल पर इसके गैलेक्सी बड्स4 प्रो की ध्वनि इतनी अच्छी क्यों है, इस पर से पर्दा हटा दिया गया है, और उत्तर यह है कि आक्रामक एआई अनुकूलन सेंसर अधिभार को पूरा करता है। कंपनी ने एक गहरी तकनीकी खराबी प्रकाशित की जिसमें दिखाया गया कि कैसे उसने एक परिष्कृत डीप न्यूरल नेटवर्क को एक बीन के आकार के हार्डवेयर में बदल दिया।
मुख्य नवाचार वह है जिसे सैमसंग सेंसर फ़्यूज़न तकनीक कहता है। सड़क के शोर के खिलाफ हारी हुई लड़ाई लड़ने वाले एकल माइक्रोफोन पर निर्भर रहने के बजाय, बड्स4 प्रो में तीन माइक और हड्डी चालन पर आधारित एक वॉयस पिकअप यूनिट सेंसर है। दो बाहरी माइक हवा से आपकी आवाज़ पकड़ते हैं, एक तीसरा आंतरिक माइक आपके शरीर के माध्यम से प्रसारित भाषण कंपन को पकड़ता है, और जब आप बात करते हैं तो वीपीयू आपके सिर में भौतिक कंपन का पता लगाता है। सभी चार इनपुट एक एआई एल्गोरिदम में फीड होते हैं जो सैमसंग के सटीक सटीकता के दावे के साथ आपकी आवाज को फिर से संगठित करता है।
लेकिन यहाँ पेचीदा हिस्सा है – डीप न्यूरल नेटवर्क्स को आमतौर पर गंभीर कंप्यूटिंग शक्ति की आवश्यकता होती है। वह प्रकार जो डेटा केंद्रों या कम से कम आपके फोन में रहता है, शायद कुछ घंटों की बैटरी लाइफ वाला वायरलेस ईयरबड नहीं। सैमसंग के इंजीनियरों को कम्प्यूटेशनल आवश्यकताओं को एल्गोरिदम की मूल मांग के लगभग 10% तक कम करना पड़ा, जबकि मॉडल आकार को केवल 30% तक कम करना पड़ा। सैद्धांतिक एआई सुविधा और वास्तव में आपके द्वारा खरीदे जा सकने वाले उत्पाद में भेजे जाने वाले एआई फीचर के बीच यही अंतर है।
अनुकूलित DNN आपके परिवेश में बदलाव के अनुसार वास्तविक समय में अनुकूलित करने के लिए अतीत, वर्तमान और पूर्वानुमानित ध्वनि डेटा का विश्लेषण करता है। सैमसंग का कहना है कि यह पिछले गैलेक्सी बड्स मॉडल की तुलना में 16 गुना अधिक ध्वनि विवरण कैप्चर करता है, हाई-पिच टोन से लेकर तेज व्यंजन तक सब कुछ संरक्षित करता है जो आम तौर पर तब खो जाते हैं जब परिवेशीय शोर आपकी आवाज से ऊपर उठता है। सिस्टम फिट लीकेज के लिए भी जिम्मेदार है – जब प्राकृतिक शारीरिक गतिविधियों के दौरान ईयरबड शिफ्ट होते हैं और पृष्ठभूमि शोर को अंदर आने देते हैं। यह लीकेज का अनुमान लगाने और तुरंत समायोजित करने के लिए आंतरिक और बाहरी माइक से संकेतों का लगातार विश्लेषण करता है।
जब आप बड्स4 प्रो को गैलेक्सी स्मार्टफोन के साथ जोड़ते हैं, तो 16 किलोहर्ट्ज़ तक चलने वाले सुपर वाइडबैंड कनेक्शन की बदौलत आवाज की स्पष्टता और भी अधिक बढ़ जाती है। यह मानक ब्लूटूथ कॉल गुणवत्ता से एक उल्लेखनीय कदम है, हालांकि इसे प्राप्त करने के लिए आपको सैमसंग के पारिस्थितिकी तंत्र में रहना होगा।
सैमसंग ने इसे सिर्फ एक प्रयोगशाला में इंजीनियर नहीं किया और इसे पूरा कह दिया। कंपनी ने बड़े पैमाने पर पवन सिमुलेटरों का उपयोग करके वास्तविक दुनिया के ध्वनिक परिदृश्यों को फिर से बनाया, फिर हलचल वाले कैफे, शोर वाले डिपार्टमेंट स्टोर, गूंजने वाले ट्रेन स्टेशनों और यहां तक कि खिड़कियों के नीचे वाली कारों में फील्ड परीक्षणों के साथ सब कुछ मान्य किया। लक्ष्य यह सुनिश्चित करना था कि एल्गोरिदम वास्तविक अराजकता को संभाले, न कि केवल नियंत्रित परीक्षण स्थितियों को।
सेंसर फ़्यूज़न दृष्टिकोण पूरी तरह से नया नहीं है – सैमसंग नोट करता है कि इसे गैलेक्सी बड्स लाइव के बाद से समर्थित किया गया है। लेकिन बड्स4 प्रो इस मामले में एक महत्वपूर्ण छलांग का प्रतिनिधित्व करता है कि कंपनी फॉर्म फैक्टर में कितनी बुद्धिमत्ता पैक कर सकती है। प्रदर्शन को बनाए रखते हुए DNN को उसके मूल आकार के 30% तक सिकोड़ना एक प्रकार का अनुकूलन है जिसमें महीनों की पुनरावृत्ति और व्यापार-बंद विश्लेषण की आवश्यकता होती है।
यहां दिलचस्प बात यह है कि सैमसंग ने क्लाउड-निर्भर एआई के बजाय ऑन-डिवाइस प्रोसेसिंग पर दांव लगाया है। कॉल की गुणवत्ता के लिए विलंबता बहुत मायने रखती है, और क्लाउड और बैक पर ऑडियो भेजने में देरी होती है जो प्राकृतिक वार्तालाप प्रवाह को नष्ट कर देती है। सब कुछ स्थानीय रखकर, बड्स4 प्रो सर्वर प्रतिक्रिया की प्रतीक्षा किए बिना बदलते परिवेश पर तुरंत प्रतिक्रिया कर सकता है।
समय भी उल्लेखनीय है. जैसा कि हर तकनीकी कंपनी उत्पादों में एआई भरने की होड़ में है, सैमसंग दिखा रहा है कि जब आप भौतिकी, बिजली बजट और थर्मल सीमाओं से बंधे होते हैं तो व्यावहारिक कार्यान्वयन वास्तव में कैसा दिखता है। यह कोई चैटबॉट या इमेज जेनरेटर नहीं है – यह एआई एक पैसे से भी छोटी बैटरी से बिजली लेते हुए वास्तविक समय में प्रति सेकंड हजारों बार अनसेक्सी लेकिन आवश्यक काम कर रहा है।
जैसे प्रतिस्पर्धियों के लिए सेब और उनके एयरपॉड्स प्रो, सैमसंग के तकनीकी प्रकटीकरण ने कॉल गुणवत्ता पारदर्शिता के लिए एक नया मानक स्थापित किया है। Apple शायद ही कभी अपने कम्प्यूटेशनल ऑडियो कार्य की विशिष्टताओं पर चर्चा करता है, उत्पादों को अपने लिए बोलने देना पसंद करता है। सैमसंग विपरीत दृष्टिकोण अपना रहा है, जिससे यह स्पष्ट हो गया है कि उन्होंने यहां तक पहुंचने के लिए कठिन इंजीनियरिंग समस्याओं का समाधान किया है।
व्यापक निष्कर्ष यह है कि ऑन-डिवाइस AI अंततः उन समस्याओं से निपटने के लिए पर्याप्त रूप से कुशल हो रहा है जो कुछ साल पहले असंभव लगती थीं। एक तंत्रिका नेटवर्क को वायरलेस ईयरबड्स में समेटने के लिए ऐसे अनुकूलन की आवश्यकता होती है जो तकनीक को अन्य अल्ट्रा-कॉम्पैक्ट उपकरणों के लिए व्यवहार्य बनाता है। यह उस तरह का काम है जो आकर्षक सुर्खियाँ नहीं बनाता बल्कि चुपचाप अगली पीढ़ी को वास्तव में स्मार्ट हार्डवेयर बनाने में सक्षम बनाता है।
सैमसंग के गैलेक्सी बड्स4 प्रो इंजीनियरिंग ब्रेकडाउन से पता चलता है कि जब आप भौतिकी और बिजली की कमी से जूझ रहे होते हैं तो व्यावहारिक एआई कार्यान्वयन कैसा दिखता है। प्रदर्शन को बनाए रखते हुए डीप न्यूरल नेटवर्क को उसके मूल आकार के एक अंश तक संपीड़ित करके, सैमसंग दिखाता है कि ऑन-डिवाइस एआई वास्तव में वायरलेस फॉर्म कारकों में वास्तविक समस्याओं से निपट सकता है। हर चीज़ में एआई जोड़ने के जुनून से भरे उद्योग के लिए, यह उस तकनीक का एक दुर्लभ उदाहरण है जो अस्वाभाविक लेकिन आवश्यक काम कर रही है – यह सुनिश्चित करना कि लोग वास्तव में आपको फोन कॉल पर सुन सकें। जैसे-जैसे प्रतिस्पर्धी इन क्षमताओं से मेल खाने के लिए दौड़ रहे हैं, सैमसंग द्वारा यहां विकसित की गई अनुकूलन तकनीक संभवतः पूरे वायरलेस ऑडियो बाजार में धूम मचा देगी।









