अटलांटिक ने एआई प्रशिक्षण डेटा खोजने योग्य डीबी में 21 मिलियन गाने उजागर किए

अटलांटिक ने एआई की संगीत समस्या से पर्दा हटा दिया। रिपोर्टर एलेक्स रीस्नर ने कुल 21 मिलियन से अधिक ट्रैक वाले चार विशाल डेटासेट का खुलासा किया, जिनका उपयोग कंपनियां एआई संगीत जनरेटर को प्रशिक्षित करने के लिए कर रही हैं, और उन्हें किसी के भी अन्वेषण के लिए पूरी तरह से खोजने योग्य बना दिया है। जांच में Google और स्टेबिलिटी AI को पुष्टि किए गए उपयोगकर्ताओं के रूप में नामित किया गया है, जिससे AI प्रशिक्षण गोल्ड रश में कॉपीराइट और सहमति के बारे में नए प्रश्न उठते हैं।

अटलांटिक अभी-अभी संगीत उद्योग को एक धुआंधार बंदूक सौंपी है। रिपोर्टर एलेक्स रीस्नर की एआई संगीत प्रशिक्षण डेटा की जांच से 21 मिलियन से अधिक ट्रैक वाले चार डेटासेट उजागर हुए हैं जिनका उपयोग एआई कंपनियां चुपचाप अपने संगीत पीढ़ी मॉडल बनाने के लिए कर रही हैं। और उसने पूरी चीज़ बनाई है खोज योग्य ताकि कोई भी ठीक-ठीक देख सके कि अंदर क्या है।

पैमाना चौंका देने वाला है. दो डेटासेट में क्रमशः 12 मिलियन और 9 मिलियन ट्रैक हैं, जबकि छोटे सेट में अभी भी प्रत्येक में 100,000 से अधिक गाने हैं। के अनुसार रीस्नर की रिपोर्टिंगइन डेटासेट को हजारों बार डाउनलोड किया गया है, लेकिन असली धमाका यह है कि वास्तव में इनका उपयोग करने की बात किसने स्वीकार की है।

गूगल और स्थिरता AI दोनों की पुष्टि की गई शोध पत्र उन्होंने प्रशिक्षण के लिए इन संग्रहों का उपयोग किया है। Google की स्वीकृति तब आई है जब कंपनी AI-जनित सामग्री में गहराई से आगे बढ़ रही है स्थिरता ए.आई जेनेरिक ऑडियो क्षेत्र में प्रतिस्पर्धा करने के लिए दौड़ रहा है। यह स्वीकारोक्ति तत्काल सवाल उठाती है कि कितनी अन्य कंपनियां बिना आगे बढ़े चुपचाप इस संगीत पर प्रशिक्षण दे रही हैं।

यहीं पर यह कानूनी रूप से संदिग्ध हो जाता है। कुछ स्रोत सामग्री से आती है मुफ़्त संगीत पुरालेखएक ऐसा प्लेटफ़ॉर्म जहां व्यक्तिगत उपयोग के लिए ट्रैक स्ट्रीम करने के लिए निःशुल्क हैं। लेकिन व्यक्तिगत स्ट्रीमिंग अधिकार स्वचालित रूप से व्यावसायिक एआई प्रशिक्षण अधिकारों में परिवर्तित नहीं होते हैं – एक ऐसा अंतर जो संगीत की एआई गणना में फ्लैशप्वाइंट बन रहा है। जो तकनीकी रूप से सुलभ है और जो प्रशिक्षण के लिए कानूनी रूप से स्वीकार्य है, उसके बीच का अंतर बहुत बड़ा है, और ये डेटासेट उस ग्रे जोन में सही बैठते प्रतीत होते हैं।

वज़न में आप अपने एआई प्रशिक्षण डेटा फ़ुटप्रिंट की जांच कर सकते हैं

समय इससे अधिक संवेदनशील नहीं हो सकता. सुनो और यूडियो जैसे एआई संगीत जनरेटर ने पिछले वर्ष में क्षमता में विस्फोट किया है, जो विशिष्ट कलाकारों और शैलियों की नकल करने वाले तेजी से विश्वसनीय ट्रैक तैयार कर रहे हैं। प्रमुख लेबल पहले से ही चक्कर लगाना शुरू कर चुके हैं कॉपीराइट मुकदमे उन कंपनियों को लक्षित करना जिनके बारे में उनका दावा है कि वे बिना अनुमति या भुगतान के संरक्षित कैटलॉग पर प्रशिक्षित हैं।

रीस्नर का डेटाबेस कलाकारों और अधिकार धारकों को एक उपकरण सौंपता है जिसकी उन्हें सख्त जरूरत है – यह जांचने की क्षमता कि क्या उनके काम का उपयोग सहमति के बिना किया जा रहा है। इंडी संगीतकारों के लिए जो केवल व्यक्तिगत उपयोग मानकर प्लेटफार्मों के माध्यम से वितरण करते हैं, एक वाणिज्यिक एआई प्रशिक्षण सेट में उनके ट्रैक की खोज नई कानूनी कार्रवाई की लहर को ट्रिगर कर सकती है।

विज़ुअल एआई के साथ उद्योग की समानताओं को नज़रअंदाज़ करना असंभव है। स्थिरता ए.आई जब कलाकारों ने छवि जनरेटर के लिए प्रशिक्षण डेटासेट में अपने काम की खोज की तो उन्हें इसी तरह की जांच का सामना करना पड़ा। लेकिन संगीत में और भी अधिक जटिल अधिकार संरचनाएं हैं – मास्टर रिकॉर्डिंग, रचना अधिकार, प्रदर्शन अधिकार – एक कानूनी माइनफ़ील्ड बनाना जो तुलनात्मक रूप से छवि कॉपीराइट को सरल बनाता है।

जो बात इस रहस्योद्घाटन को विशेष रूप से हानिकारक बनाती है वह है अधिकांश कंपनियों की चुप्पी। जबकि गूगल और स्टेबिलिटी एआई ने कम से कम अकादमिक पेपरों में उनके उपयोग को स्वीकार किया है, हजारों अन्य डाउनलोड इस संगीत पर एआई डेवलपर्स के प्रशिक्षण के एक बहुत व्यापक नेटवर्क का सुझाव देते हैं। पारदर्शिता की कमी उद्योग की दुखती रग बन गई है क्योंकि नियामक और कलाकार जवाबदेही की मांग करते हैं।

डेटासेट से यह भी पता चलता है कि एआई कंपनियां सार्वजनिक रूप से सुलभ संगीत को निष्पक्ष खेल के रूप में कैसे मान रही हैं। तर्क यह प्रतीत होता है: यदि यह इंटरनेट पर है, तो यह प्रशिक्षण डेटा है। यह धारणा अब कानूनी वास्तविकता में दुर्घटनाग्रस्त हो रही है क्योंकि अदालतें इस बात पर विचार करना शुरू कर रही हैं कि क्या एआई प्रशिक्षण के लिए सामग्री को स्क्रैप करना उचित उपयोग या कॉपीराइट का उल्लंघन है।

के लिए गूगलजो पहले से ही अविश्वास जांच और एआई सुरक्षा बहस को नेविगेट कर रहा है, यह एक और दबाव बिंदु जोड़ता है। कंपनी द्वारा इन डेटासेट का पुष्टिकृत उपयोग इसकी स्थिति को जटिल बना सकता है क्योंकि यह यूट्यूब और अन्य प्लेटफार्मों पर एआई संगीत सुविधाओं का व्यावसायीकरण करने की कोशिश कर रहा है। जब आप पहले से ही बिना लाइसेंस वाले कैटलॉग पर प्रशिक्षण ले चुके हों तो लेबल के साथ लाइसेंसिंग सौदों पर बातचीत करना कठिन हो जाता है।

नोबेल विजेता जॉन जम्पर ने एंथ्रोपिक के लिए डीपमाइंड छोड़ दिया

जांच एआई संगीत विकास के पीछे के बुनियादी ढांचे को भी उजागर करती है। ये इंटरनेट के अंधेरे कोनों पर साझा किए गए अस्पष्ट डेटासेट नहीं थे – वे अकादमिक रिपॉजिटरी पर उपलब्ध थे और खुले तौर पर हजारों बार डाउनलोड किए गए थे। पारिस्थितिकी तंत्र अब तक सार्वजनिक जांच के बिना, स्पष्ट रूप से काम कर रहा है।

अटलांटिक के खोजने योग्य डेटाबेस ने एआई संगीत बहस को प्रशिक्षण डेटा के बारे में अमूर्त चिंताओं से ठोस सबूत में बदल दिया है जिसे कोई भी जांच सकता है। Google और स्टेबिलिटी AI पहले से ही उपयोगकर्ताओं के रूप में रिकॉर्ड पर है और हजारों डाउनलोड बेहिसाब हैं, संगीत उद्योग को आखिरकार वह पारदर्शिता मिल गई है जिसकी वह मांग कर रहा था। अब सवाल यह नहीं है कि क्या एआई कंपनियां स्पष्ट अनुमति के बिना विशाल संगीत कैटलॉग पर प्रशिक्षण दे रही हैं – रीस्नर की जांच से यह साबित होता है कि उन्होंने ऐसा किया है। सवाल यह है कि कलाकार, लेबल और नियामक उस जानकारी के साथ क्या करते हैं क्योंकि एआई-जनित संगीत ख़तरनाक गति से प्रयोगात्मक से व्यावसायिक की ओर बढ़ता है।