अमेज़न वेब सेवाएँ उत्तरी वर्जीनिया में डेटा सेंटर के अत्यधिक गर्म होने की घटना के बाद महत्वपूर्ण बुनियादी ढांचे की बिजली आपूर्ति बाधित होने के बाद सेवा बहाल करने के लिए संघर्ष कर रहा है कॉइनबेस और फ़ैनडुएलजिससे व्यापारी और सट्टेबाज अपने खातों तक पहुंचने में असमर्थ हो जाते हैं। आउटेज, जो आज पहले शुरू हुआ, हाल के वर्षों में AWS के यूएस-ईस्ट-1 क्षेत्र में सबसे महत्वपूर्ण व्यवधानों में से एक है और चरम स्थितियों के दौरान क्लाउड बुनियादी ढांचे की नाजुकता को उजागर करता है। AWS स्थिति अपडेट के अनुसार पुनर्प्राप्ति प्रयासों में कई घंटे और लगने की उम्मीद है।
अमेज़न वेब सेवाएँ एक व्यापक बुनियादी ढांचे की विफलता से जूझ रहा है जिसने इंटरनेट के कुछ सबसे भारी तस्करी वाले व्यापारिक प्लेटफार्मों को बंद कर दिया है। अपराधी? उत्तरी वर्जीनिया डेटा सेंटर में ओवरहीटिंग उपकरण जो AWS के यूएस-ईस्ट-1 क्षेत्र की रीढ़ है, जो कंपनी का सबसे पुराना और सबसे सघन उपलब्धता क्षेत्र है।
कॉइनबेससार्वजनिक रूप से कारोबार करने वाला क्रिप्टो एक्सचेंज, पुष्टि करता है कि उपयोगकर्ता ट्रेड निष्पादित करने या खाता शेष तक पहुंचने में असमर्थ हैं। फ़ैनडुएलफ़्लटर एंटरटेनमेंट के स्वामित्व वाली खेल सट्टेबाजी की दिग्गज कंपनी में भी इसी तरह अंधेरा है, सट्टेबाजों को उस समय के दौरान बंद कर दिया जाता है, जब आम तौर पर दोपहर के दांव लगाने का चरम समय होता है। समय क्रूर है – क्रिप्टो बाजार सक्रिय व्यापारिक सत्रों के बीच में हैं, और खेल सट्टेबाज आज रात के खेल से पहले दांव लगाने की कोशिश कर रहे हैं।
के अनुसार AWS स्थिति डैशबोर्ड अद्यतनयह समस्या कंपनी की उत्तरी वर्जीनिया सुविधाओं में से एक में शीतलन प्रणाली की विफलता से उत्पन्न हुई है। जब डेटा सेंटर का तापमान बढ़ता है, तो स्थायी हार्डवेयर क्षति को रोकने के लिए सर्वर स्वचालित रूप से प्रदर्शन को कम कर देते हैं या पूरी तरह से बंद कर देते हैं। स्थानीयकृत शीतलन समस्या के रूप में शुरू हुई समस्या कई उपलब्धता क्षेत्रों में व्यापक सेवा गिरावट में बदल गई है।
यूएस-ईस्ट-1 क्षेत्र लंबे समय से AWS ग्राहकों के लिए दोधारी तलवार रहा है। यह कंपनी का सबसे गहन सेवा कैटलॉग वाला सबसे परिपक्व क्षेत्र है, लेकिन विरासत की स्थिति का मतलब पुराने बुनियादी ढांचे और उच्च घनत्व है। वीरांगना ने इन सुविधाओं के आधुनिकीकरण में अरबों का निवेश किया है, लेकिन आज की घटना से पता चलता है कि कैसे पर्यावरण नियंत्रण विफलता का एक महत्वपूर्ण बिंदु बना हुआ है।
दोनों कॉइनबेस और फ़ैनडुएल AWS निर्भरता को स्वीकार करते हुए स्थिति पृष्ठ अपडेट पोस्ट किए हैं। यह एक अनुस्मारक है कि परिष्कृत इंजीनियरिंग टीमों वाली कंपनियां भी अपने क्लाउड प्रदाता की बुनियादी ढांचे की समस्याओं के कारण घुटनों पर आ सकती हैं। विडंबना यह है कि पर्यवेक्षकों ने इसे नजरअंदाज नहीं किया है – इन प्लेटफार्मों ने विशेष रूप से अपने स्वयं के डेटा केंद्रों के प्रबंधन से बचने के लिए क्लाउड पर माइग्रेट करने में वर्षों बिताए हैं।
क्लाउड इंफ्रास्ट्रक्चर के दिग्गजों का कहना है कि इस तरह की ओवरहीटिंग घटनाएं आम होती जा रही हैं क्योंकि डेटा सेंटर अधिक कंप्यूटिंग शक्ति को समान भौतिक पदचिह्न में पैक करते हैं। आधुनिक जीपीयू और उच्च-प्रदर्शन वाले सीपीयू पिछली पीढ़ियों की तुलना में काफी अधिक गर्मी उत्पन्न करते हैं, जिससे शीतलन प्रणाली अपनी सीमा तक पहुंच जाती है। एक बेमौसम गर्म दिन या मामूली एचवीएसी खराबी जोड़ें, और आपको इस तरह की व्यापक विफलता के लिए एक नुस्खा मिल जाएगा।
वित्तीय प्रभाव प्रति घंटा बढ़ रहा है। कॉइनबेस दैनिक ट्रेडिंग मात्रा में अरबों का प्रसंस्करण करता है, साथ ही कंपनी प्रत्येक लेनदेन पर शुल्क अर्जित करती है। प्राइम सट्टेबाजी के घंटों के दौरान फैनड्यूल की विफलता प्रभावित होती है – वह खिड़की जब आकस्मिक सट्टेबाज काम के बाद दांव लगाते हैं। डाउनटाइम का प्रत्येक मिनट सीधे तौर पर दोनों प्लेटफार्मों के लिए राजस्व की हानि का कारण बनता है, जब ग्राहकों को उनकी सबसे अधिक आवश्यकता होती है तो अनुपलब्ध होने की प्रतिष्ठित क्षति का उल्लेख नहीं किया जाता है।
जो चीज़ इस आउटेज को विशेष रूप से उल्लेखनीय बनाती है वह है शालीन गिरावट की कमी। आंशिक सेवा व्यवधान के बजाय, उपयोगकर्ताओं को पूर्ण अनुपलब्धता का सामना करना पड़ रहा है। इससे पता चलता है कि प्रभावित बुनियादी ढांचे में कोर डेटाबेस सेवाएँ या प्रमाणीकरण प्रणालियाँ शामिल हैं – ऐसे मूलभूत घटक जो व्यापक वास्तुशिल्प योजना के बिना बैकअप क्षेत्रों में आसानी से विफल नहीं हो सकते हैं।
AWS ने अपनी घटना प्रतिक्रिया टीमें जुटाई हैं, लेकिन डेटा सेंटर को ठंडा करने की भौतिकी में जल्दबाजी नहीं की जा सकती। भले ही इंजीनियर एचवीएसी कार्यक्षमता को तुरंत बहाल कर दें, सर्वर को पूर्ण संचालन को सुरक्षित रूप से फिर से शुरू करने से पहले ठंडा होने के लिए समय की आवश्यकता होती है। बहु-घंटे की पुनर्प्राप्ति समयरेखा उस वास्तविकता को दर्शाती है – यह कोई सॉफ़्टवेयर पैच या नेटवर्क पुन: कॉन्फ़िगरेशन नहीं है, यह एक भौतिक बुनियादी ढाँचा आपातकाल है।
यह घटना निश्चित रूप से मल्टी-क्लाउड रणनीतियों और भौगोलिक अतिरेक के बारे में बहस को फिर से शुरू कर देगी। कंपनियों को पसंद है कॉइनबेस वास्तविक बहु-क्षेत्र विफलता को व्यवस्थित करने के लिए संसाधन हैं, लेकिन ऐसा करने के लिए पर्याप्त इंजीनियरिंग निवेश और निरंतर जटिलता की आवश्यकता होती है। कई लोगों ने सरल संचालन के बदले एकल-क्षेत्रीय तैनाती के जोखिम को स्वीकार करना चुना। आज, वे उस निर्णय की कीमत चुका रहे हैं।
यह आउटेज एक स्पष्ट अनुस्मारक है कि क्लाउड इंफ्रास्ट्रक्चर, अपने सभी अतिरेक वादों के बावजूद, अभी भी भौतिक प्रणालियों पर निर्भर करता है जो शानदार असुविधाजनक तरीकों से विफल हो सकते हैं। के लिए कॉइनबेस और फ़ैनडुएल उपयोगकर्ताओं के लिए, इसका मतलब है कि महत्वपूर्ण ट्रेडिंग और सट्टेबाजी विंडो के दौरान घंटों तक पहुंच का नुकसान। व्यापक एंटरप्राइज़ क्लाउड बाज़ार के लिए, यह वास्तविक उच्च-उपलब्धता आर्किटेक्चर के बारे में चल रही बातचीत में एक और डेटा बिंदु है – और क्या एकल क्लाउड प्रदाता पर भरोसा करना, चाहे कितना भी विश्वसनीय हो, जोखिम लेने लायक है। जैसा कि AWS अपनी बहु-घंटे की पुनर्प्राप्ति प्रक्रिया के माध्यम से काम करता है, उम्मीद है कि Microsoft Azure और Google क्लाउड जैसे प्रतिस्पर्धी मल्टी-क्लाउड लचीलापन रणनीतियों के बारे में बिक्री कॉल करेंगे।









