अटलांटिक ने एआई प्रशिक्षण डेटा खोजने योग्य डीबी में 21 मिलियन गाने उजागर किए

अटलांटिक ने एआई की संगीत समस्या से पर्दा हटा दिया। रिपोर्टर एलेक्स रीस्नर ने कुल 21 मिलियन से अधिक ट्रैक वाले चार विशाल डेटासेट का खुलासा किया, जिनका उपयोग कंपनियां एआई संगीत जनरेटर को प्रशिक्षित करने के लिए कर रही हैं, और उन्हें किसी के भी अन्वेषण के लिए पूरी तरह से खोजने योग्य बना दिया है। जांच में Google और स्टेबिलिटी AI को पुष्टि किए गए उपयोगकर्ताओं के रूप में नामित किया गया है, जिससे AI प्रशिक्षण गोल्ड रश में कॉपीराइट और सहमति के बारे में नए प्रश्न उठते हैं।

अटलांटिक अभी-अभी संगीत उद्योग को एक धुआंधार बंदूक सौंपी है। रिपोर्टर एलेक्स रीस्नर की एआई संगीत प्रशिक्षण डेटा की जांच से 21 मिलियन से अधिक ट्रैक वाले चार डेटासेट उजागर हुए हैं जिनका उपयोग एआई कंपनियां चुपचाप अपने संगीत पीढ़ी मॉडल बनाने के लिए कर रही हैं। और उसने पूरी चीज़ बनाई है खोज योग्य ताकि कोई भी ठीक-ठीक देख सके कि अंदर क्या है।

पैमाना चौंका देने वाला है. दो डेटासेट में क्रमशः 12 मिलियन और 9 मिलियन ट्रैक हैं, जबकि छोटे सेट में अभी भी प्रत्येक में 100,000 से अधिक गाने हैं। के अनुसार रीस्नर की रिपोर्टिंगइन डेटासेट को हजारों बार डाउनलोड किया गया है, लेकिन असली धमाका यह है कि वास्तव में इनका उपयोग करने की बात किसने स्वीकार की है।

गूगल और स्थिरता AI दोनों की पुष्टि की गई शोध पत्र उन्होंने प्रशिक्षण के लिए इन संग्रहों का उपयोग किया है। Google की स्वीकृति तब आई है जब कंपनी AI-जनित सामग्री में गहराई से आगे बढ़ रही है स्थिरता ए.आई जेनेरिक ऑडियो क्षेत्र में प्रतिस्पर्धा करने के लिए दौड़ रहा है। यह स्वीकारोक्ति तत्काल सवाल उठाती है कि कितनी अन्य कंपनियां बिना आगे बढ़े चुपचाप इस संगीत पर प्रशिक्षण दे रही हैं।

यहीं पर यह कानूनी रूप से संदिग्ध हो जाता है। कुछ स्रोत सामग्री से आती है मुफ़्त संगीत पुरालेखएक ऐसा प्लेटफ़ॉर्म जहां व्यक्तिगत उपयोग के लिए ट्रैक स्ट्रीम करने के लिए निःशुल्क हैं। लेकिन व्यक्तिगत स्ट्रीमिंग अधिकार स्वचालित रूप से व्यावसायिक एआई प्रशिक्षण अधिकारों में परिवर्तित नहीं होते हैं – एक ऐसा अंतर जो संगीत की एआई गणना में फ्लैशप्वाइंट बन रहा है। जो तकनीकी रूप से सुलभ है और जो प्रशिक्षण के लिए कानूनी रूप से स्वीकार्य है, उसके बीच का अंतर बहुत बड़ा है, और ये डेटासेट उस ग्रे जोन में सही बैठते प्रतीत होते हैं।

नोबेल विजेता जॉन जम्पर ने एंथ्रोपिक के लिए डीपमाइंड छोड़ दिया

समय इससे अधिक संवेदनशील नहीं हो सकता. सुनो और यूडियो जैसे एआई संगीत जनरेटर ने पिछले वर्ष में क्षमता में विस्फोट किया है, जो विशिष्ट कलाकारों और शैलियों की नकल करने वाले तेजी से विश्वसनीय ट्रैक तैयार कर रहे हैं। प्रमुख लेबल पहले से ही चक्कर लगाना शुरू कर चुके हैं कॉपीराइट मुकदमे उन कंपनियों को लक्षित करना जिनके बारे में उनका दावा है कि वे बिना अनुमति या भुगतान के संरक्षित कैटलॉग पर प्रशिक्षित हैं।

रीस्नर का डेटाबेस कलाकारों और अधिकार धारकों को एक उपकरण सौंपता है जिसकी उन्हें सख्त जरूरत है – यह जांचने की क्षमता कि क्या उनके काम का उपयोग सहमति के बिना किया जा रहा है। इंडी संगीतकारों के लिए जो केवल व्यक्तिगत उपयोग मानकर प्लेटफार्मों के माध्यम से वितरण करते हैं, एक वाणिज्यिक एआई प्रशिक्षण सेट में उनके ट्रैक की खोज नई कानूनी कार्रवाई की लहर को ट्रिगर कर सकती है।

विज़ुअल एआई के साथ उद्योग की समानताओं को नज़रअंदाज़ करना असंभव है। स्थिरता ए.आई जब कलाकारों ने छवि जनरेटर के लिए प्रशिक्षण डेटासेट में अपने काम की खोज की तो उन्हें इसी तरह की जांच का सामना करना पड़ा। लेकिन संगीत में और भी अधिक जटिल अधिकार संरचनाएं हैं – मास्टर रिकॉर्डिंग, रचना अधिकार, प्रदर्शन अधिकार – एक कानूनी माइनफ़ील्ड बनाना जो तुलनात्मक रूप से छवि कॉपीराइट को सरल बनाता है।

जो बात इस रहस्योद्घाटन को विशेष रूप से हानिकारक बनाती है वह है अधिकांश कंपनियों की चुप्पी। जबकि गूगल और स्टेबिलिटी एआई ने कम से कम अकादमिक पेपरों में उनके उपयोग को स्वीकार किया है, हजारों अन्य डाउनलोड इस संगीत पर एआई डेवलपर्स के प्रशिक्षण के एक बहुत व्यापक नेटवर्क का सुझाव देते हैं। पारदर्शिता की कमी उद्योग की दुखती रग बन गई है क्योंकि नियामक और कलाकार जवाबदेही की मांग करते हैं।

डेटासेट से यह भी पता चलता है कि एआई कंपनियां सार्वजनिक रूप से सुलभ संगीत को निष्पक्ष खेल के रूप में कैसे मान रही हैं। तर्क यह प्रतीत होता है: यदि यह इंटरनेट पर है, तो यह प्रशिक्षण डेटा है। यह धारणा अब कानूनी वास्तविकता में दुर्घटनाग्रस्त हो रही है क्योंकि अदालतें इस बात पर विचार करना शुरू कर रही हैं कि क्या एआई प्रशिक्षण के लिए सामग्री को स्क्रैप करना उचित उपयोग या कॉपीराइट का उल्लंघन है।

के लिए गूगलजो पहले से ही अविश्वास जांच और एआई सुरक्षा बहस को नेविगेट कर रहा है, यह एक और दबाव बिंदु जोड़ता है। कंपनी द्वारा इन डेटासेट का पुष्टिकृत उपयोग इसकी स्थिति को जटिल बना सकता है क्योंकि यह यूट्यूब और अन्य प्लेटफार्मों पर एआई संगीत सुविधाओं का व्यावसायीकरण करने की कोशिश कर रहा है। जब आप पहले से ही बिना लाइसेंस वाले कैटलॉग पर प्रशिक्षण ले चुके हों तो लेबल के साथ लाइसेंसिंग सौदों पर बातचीत करना कठिन हो जाता है।

‘ब्रीथ ऑफ़ द वाइल्ड’ और स्विस आर्मी नाइव्स पर संगीतकार और यूट्यूबर हैनबैक

जांच एआई संगीत विकास के पीछे के बुनियादी ढांचे को भी उजागर करती है। ये इंटरनेट के अंधेरे कोनों पर साझा किए गए अस्पष्ट डेटासेट नहीं थे – वे अकादमिक रिपॉजिटरी पर उपलब्ध थे और खुले तौर पर हजारों बार डाउनलोड किए गए थे। पारिस्थितिकी तंत्र अब तक सार्वजनिक जांच के बिना, स्पष्ट रूप से काम कर रहा है।

अटलांटिक के खोजने योग्य डेटाबेस ने एआई संगीत बहस को प्रशिक्षण डेटा के बारे में अमूर्त चिंताओं से ठोस सबूत में बदल दिया है जिसे कोई भी जांच सकता है। Google और स्टेबिलिटी AI पहले से ही उपयोगकर्ताओं के रूप में रिकॉर्ड पर है और हजारों डाउनलोड बेहिसाब हैं, संगीत उद्योग को आखिरकार वह पारदर्शिता मिल गई है जिसकी वह मांग कर रहा था। अब सवाल यह नहीं है कि क्या एआई कंपनियां स्पष्ट अनुमति के बिना विशाल संगीत कैटलॉग पर प्रशिक्षण दे रही हैं – रीस्नर की जांच से यह साबित होता है कि उन्होंने ऐसा किया है। सवाल यह है कि कलाकार, लेबल और नियामक उस जानकारी के साथ क्या करते हैं क्योंकि एआई-जनित संगीत ख़तरनाक गति से प्रयोगात्मक से व्यावसायिक की ओर बढ़ता है।