डोनाल्ड ट्रम्प की गिरफ्तारी की तस्वीरें। पोप फ्रांसिस ने स्टाइलिश सफेद पफर जैकेट पहन रखी है। एलोन मस्क की रोबोट पत्नी। पेंटागन के पास एक कथित विस्फोट। कंप्यूटर इंजीनियर एक राजमार्ग पर काम कर रहे हैं। एक बूढ़ा रयान गोसलिंग। सोशल मीडिया पर अलग-अलग समय की सभी तस्वीरें तैर रही हैं। कोई भी वास्तविक नहीं था, लेकिन वे कुछ कम नहीं दिखते थे। दुनिया अभी तैयार नहीं है, इस स्तर के यथार्थवाद के लिए कृत्रिम रूप से उत्पन्न (एआई) छवियां सक्षम हैं।
एक छवि और एक तस्वीर के बीच अंतर करना पहले से कहीं अधिक महत्वपूर्ण है। “डोनाल्ड ट्रम्प की तस्वीर को गिरफ्तार किया जा रहा है” – मिडजर्नी एआई इमेज जेनरेटर टूल में पंच करने के लिए यह सब कुछ था। और वोइला। एक दृश्य संदेश को अधिक आसानी से स्वीकार करना मानव प्रवृत्ति है।
माइक्रोसॉफ्ट में कॉरपोरेट वाइस प्रेसिडेंट और कंज्यूमर चीफ मार्केटिंग ऑफिसर युसूफ मेहदी ने कहा, “हम अनुसंधान से जानते हैं कि मानव मस्तिष्क टेक्स्ट की तुलना में लगभग 60,000 गुना तेजी से दृश्य जानकारी को प्रोसेस करता है, विज़ुअल टूल लोगों को खोजने, बनाने और समझने का एक महत्वपूर्ण तरीका बनाता है।” .
यह भी पढ़ें:चीन ने ‘डीप फेक’, इंटरनेट सुरक्षा पर तकनीकी दिग्गजों को तलब किया
यह एक ऐसे युग में है जब एआई उपकरण अभी भी विकसित हो रहे हैं। वे हमेशा चेहरे के भाव, त्वचा की बनावट, दांतों जैसी विशेषताओं या यहां तक कि अंगों को एक बार में सही ढंग से प्राप्त नहीं कर पाते हैं, लेकिन समग्र परिणाम इतने यथार्थवादी दिखते हैं, पहली नज़र में इन विसंगतियों को इंगित करना मुश्किल है। डोनाल्ड ट्रम्प की गिरफ्तारी पीढ़ी में वे दांत ठीक नहीं दिखते थे।
वास्तव में, यह अभी के लिए यह बताने का एकमात्र तरीका है कि कोई छवि वास्तविक है या एआई का उपयोग करके बनाई गई डीपफेक है। संदेह की खुराक। सुविधाओं की सटीकता पर करीब से नज़र डालें। वे अक्सर सच्चाई बता देते हैं/ लेकिन उम्मीद करते हैं कि जैसे-जैसे सुधार शुरू होंगे, वैसे-वैसे यह और भी मुश्किल हो जाएगा।
एआई उत्पन्न छवियां: वास्तविक तस्वीरों जितनी अच्छी
फोटोग्राफी प्रतियोगिता में एआई की प्रतिभा ने जजों को चौंका दिया। द वर्ल्ड फ़ोटोग्राफ़ी ऑर्गनाइज़ेशन ने मार्च में सोनी वर्ल्ड फ़ोटोग्राफ़ी अवार्ड्स 2023 में बर्लिन स्थित बोरिस एल्डगसेन के सबमिशन को रचनात्मक फ़ोटो श्रेणी विजेता के रूप में चुना। एक पुरस्कार जिसे उन्होंने बाद में एक बहुत ही विशिष्ट कारण से ठुकरा दिया।
1950 के दशक के अलग-अलग पारिवारिक चित्र शैली वाइब्स के साथ गले लगाने वाली दो महिलाओं की मोनोक्रोम छवि वास्तव में एक तस्वीर नहीं थी। जब तक क्रिएटर ने खुलासा नहीं किया, तब तक किसी को भी स्यूडोमनेसिया का एहसास नहीं हुआ: इलेक्ट्रीशियन एआई इमेज जेनरेटर, डीएएल-ई 2 की करतूत है। “एआई फोटोग्राफी नहीं है,” वे कहते हैं।
एडोब जुगनू। मध्य यात्रा। डल-ई। स्थिर प्रसार। फ़्रीवे। बिंग छवि निर्माता। फोटो कला। नाइट कैफे ए.आई. क्रेयॉन। स्टाररी एआई। जैस्पर। फोटोसोनिक। बस कुछ नाम आपके सामने आए होंगे। एआई को आपके कलात्मक और साहित्यिक निपटान में डालने वाले सभी ऑनलाइन टूल। कुछ उपयोग करने के लिए स्वतंत्र हैं, दूसरों ने सब्सक्रिप्शन का भुगतान किया है।
दायरा बढ़ रहा है। Adobe ने लोकप्रिय फोटोशॉप ऐप के भीतर जुगनू जनरेटिव AI को जोड़ा है, हालांकि यह कुछ सप्ताह पहले लॉन्च किए गए एक स्टैंडअलोन टूल के रूप में शुरू हुआ था। इससे उभरने वाली मुख्य विशेषता “जेनरेटिव फिल” कहलाती है, जो उपयोगकर्ताओं को उनके निपटान में अधिक एआई उपकरणों के साथ छवियों को संशोधित और संपादित करने की अनुमति देगी।
एडोब के उपाध्यक्ष पाम क्लार्क कहते हैं, “इन संकेतों का उपयोग किसी छवि के हिस्सों को जोड़ने, हटाने या बदलने और छवि के किनारों को विस्तारित करने के लिए किया जा सकता है।” कंपनी का कहना है कि जुगनू का पहला मॉडल एडोब स्टॉक छवियों और लाइसेंस प्राप्त सामग्री सहित कई डेटासेट पर प्रशिक्षित है।
आप हमेशा बाद में आश्चर्य कर सकते हैं – क्या यह तस्वीर वास्तव में एक स्मृति है, या ऐसा कुछ है जो एआई द्वारा सोचा और बदला गया है?
एआई छवियां आसपास रही हैं, जितना आपने महसूस किया है
आप महसूस कर सकते हैं कि एआई से उत्पन्न छवियां नई हैं, लेकिन वे नहीं हैं। कंप्यूटर ग्राफिक्स के शुरुआती दिनों में एआई-जेनरेट की गई कला के इतिहास का पता लगाया जा सकता है।
1960 के दशक तक, कंप्यूटर का उपयोग सरल पैटर्न और आकार बनाने के लिए किया जाता था। ऐसा ही एक उदाहरण 1967 में एक जर्मन गणितज्ञ और वैज्ञानिक फ्रीडर नेक द्वारा बनाया गया “मैट्रिक्स गुणन” पोर्टफोलियो है। इसमें बारह चित्र शामिल थे।
फिर अगला कदम आया, 1973 में कलाकार हेरोल्ड कोहेन द्वारा बनाए गए हारून जैसे जटिल एल्गोरिदम का उपयोग करके कंप्यूटर-एडेड डिज़ाइन (सीएडी)।
एआई उपकरण इतने अच्छे कैसे हो गए हैं?
एआई के संभावित दुरुपयोग के बारे में एक अपरिहार्य बहस होगी, और भी अधिक सुधार के यथार्थवाद के कारण जो एआई अब उत्पन्न करता है। यह आश्चर्य होना स्वाभाविक है – एआई इतने उच्च स्तर की दृश्य प्रामाणिकता के साथ चित्र बनाने में कैसे सक्षम है?
टेक्स्ट टू इमेज सिस्टम के लिए, एक प्रतिकूल प्रशिक्षण प्रक्रिया कुंजी है। एआई छवि जनरेटर तंत्रिका नेटवर्क और डेटा सेट के उपयोग के समान ही काम करते हैं। सीधे शब्दों में कहें, क्वेरी में टाइप करने के बाद छवियां उत्पन्न करने के लिए, दो तंत्रिका नेटवर्क एक साथ काम कर रहे हैं। उन्हें जनरेटिव एडवरसैरियल नेटवर्क्स (GANs) भी कहा जाता है।
पहला एक जेनरेटर नेटवर्क है, जिसका उपयोग उपयोगकर्ता द्वारा टेक्स्ट इनपुट के आधार पर एक छवि बनाने के लिए किया जाता है – जैसे कि विवरणक जिसे आप माइक्रोसॉफ्ट के बिंग इमेज क्रिएटर, डल-ई 2 या मिडजर्नी में इनपुट करेंगे, ठीक वैसे ही जैसे आप किसी खोज का उपयोग कैसे करते हैं। इंजन। पर्दे के पीछे, एक दूसरा डिस्क्रिमिनेटर न्यूरल नेटवर्क बनाई गई छवि का विश्लेषण करता है, उनकी तुलना पूर्व-सीखा डेटाबेस से करता है, ताकि गलत बयानी या अशुद्धियों की पहचान की जा सके।
इसलिए जनरेटर नेटवर्क के लिए चुनौती यथार्थवाद का निर्माण करना है, जिसे बाद में विवेचक नेटवर्क चुनौती या ध्वजांकित नहीं कर सकता है। दो तंत्रिका नेटवर्क के बीच श्रेष्ठता के लिए यह झगड़ा, यही कारण है कि एआई उत्पन्न छवियां पहले से कहीं अधिक यथार्थवादी दिखती हैं। जनरेटर नेटवर्क अपने कौशल में सुधार कर रहे हैं।
यहाँ एक उदाहरण है। स्टेबल डिफ्यूजन मॉडल को प्रशिक्षित करने के लिए, डेवलपर्स स्टेबिलिटी एआई ने 4,000 एनवीडिया ए100 जीपीयू (या ग्राफिक्स प्रोसेसिंग यूनिट) और एलएआईओएन-5बी डेटासेट के एक संस्करण को तैनात किया। परिणाम स्थानों, लोगों और कार्टून चरित्रों की अति-रचनात्मक छवियां हैं।
यदि आप किसी अन्य शैली को किसी मौजूदा छवि में मर्ज करना चाहते हैं, तो न्यूरल स्टाइल ट्रांसफर (NST) एल्गोरिदम ऐसा कर सकता है। वे एक नई शैली के साथ विलय की गई मौजूदा छवि को फिर से बनाते हैं। उदाहरण के लिए, प्रॉम्प्ट “पाब्लो पिकासो द्वारा द वीपिंग वुमन की शैली में मर्लिन मुनरो” ने हमें विलय कर दिया, हालांकि समान अंतर्निहित तकनीक के बावजूद डल-ई और माइक्रोसॉफ्ट बिंग इमेज क्रिएटर पर थोड़े अलग परिणाम थे, हालांकि एडोब जुगनू के परिणाम बहादुरी से प्रायोगिक थे जबकि कुछ स्थिर प्रसार की उत्पन्न छवियां यथार्थवाद के बहुत करीब आईं।
Midjourney के एल्गोरिदम (इसे V5.1 इमेज सिस्टम कहा जाता है) के नवीनतम अपडेट में उन्नत सुसंगतता, तेज छवि गुणवत्ता और कम टेक्स्ट आर्टिफैक्ट शामिल हैं। OpenAI फोटो-यथार्थवादी चेहरों और तेज छवियों पर जोर देने के साथ, Dall-E2 के लिए एक प्रायोगिक मॉडल का परीक्षण कर रहा है। और भी बहुत कुछ आना बाकी है, लेकिन यहां पहुंचना आसान नहीं था।
एआई छवि जनरेटर, या जीएएन के विकास में विकसित मील के पत्थर से आपको अधिक परिप्रेक्ष्य मिलेगा।
2015 में, वस्तुओं, जानवरों और लोगों की उच्च-गुणवत्ता वाली छवियों के लिए डीप कन्वर्सेशनल जनरेटिव एडवरसैरियल नेटवर्क्स (DCGAN) की रिलीज़ ने रास्ता दिखाया। 2018 में, टेक कंपनी एनवीडिया ने स्टाइलगैन पेश किया, डीसीजीएएन का एक पीढ़ीगत विकास जिसमें अधिक यथार्थवाद और उम्र और लिंग को अलग करने की क्षमता है।
2020 में, OpenAI ने GPT-3 की शुरुआत की, जो एक भाषा मॉडल है जो पाठ्य संकेतों से पाठ और छवियों को उत्पन्न करने में सक्षम है, जिससे प्राकृतिक भाषा इनपुट के आधार पर अत्यधिक विस्तृत छवियों के निर्माण की अनुमति मिलती है। फिर 2021 में, Dall-E सामने आया, एक AI मॉडल जो टेक्स्ट प्रॉम्प्ट से अत्यधिक विस्तृत और रचनात्मक चित्र बनाने में सक्षम है।
आधुनिक एआई छवि उपकरण: अद्वितीय स्वाद और ताकत
चूंकि ट्रम्प और पोप की उत्पन्न छवियों ने चक्कर लगाए, मिडजर्नी ने नि: शुल्क परीक्षणों को रोक दिया है। मिडजर्नी के सीईओ और संस्थापक डेविड होल्ज़ ने डिस्कोर्ड प्लेटफॉर्म पर एक पोस्ट में “असाधारण मांग और परीक्षण के दुरुपयोग” का संदर्भ दिया। उदार परीक्षण नीति का लाभ उठाते हुए, उपयोगकर्ता अक्सर मुफ्त छवियां उत्पन्न करने के लिए कई खाते बनाते हैं। मूल योजना की कीमत अब $10 प्रति माह (या लगभग ₹820)।
माइक्रोसॉफ्ट बिंग इमेज क्रिएटर के मुफ्त उपयोग के साथ एआई की लड़ाई में शामिल हो गया, जो ओपनएआई के डल-ई पर आधारित है, जो एक अविश्वसनीय रूप से लोकप्रिय प्लेटफॉर्म है। OpenAI ने पिछले साल सितंबर में 1.5 मिलियन सक्रिय उपयोगकर्ताओं और हर दिन 2 मिलियन से अधिक उत्पन्न छवियों पर जनसांख्यिकीय उपयोग किया। तब से कोई आधिकारिक संख्या नहीं है, लेकिन वे केवल बढ़े होंगे।
इनमें से प्रत्येक उपकरण और प्लेटफॉर्म में अद्वितीय तत्व हैं।
उदाहरण के लिए, Dall-E, उपयोगकर्ताओं को लेंस और एपर्चर सेटिंग्स पर नियंत्रण देता है, जिसका अंतिम छवि कैसे दिखती है, इस पर बहुत बड़ा असर पड़ता है। मिडजर्नी एक डिस्कॉर्ड सर्वर के माध्यम से उपलब्ध है। बिंग इमेज क्रिएटर बिंग चैटबॉट में एम्बेड किया गया है। नाइटकैफे और फोटोसोनिक आपको बहुत सारी कला शैलियों का चयन करने देते हैं।
अभी और भी बहुत कुछ आना बाकी है: आपके विचार…
अगला पड़ाव, एआई द्वारा उत्पन्न छवियों के माध्यम से अपने विचारों को दोहराएं। जापान में ओसाका विश्वविद्यालय के सिस्टम न्यूरोसाइंटिस्ट यू ताकागी और शिंजी निशिमोटो का कहना है कि उन्होंने एक नया एआई मॉडल बनाया है जो ठीक यही कर सकता है। यह मॉडल लगभग 80% सटीकता के साथ तंत्रिका गतिविधि को पकड़ सकता है, और एआई प्रक्रिया के लिए लिखित और साथ ही छवियों के दृश्य विवरणों को जोड़ता है जो विचारों को पुन: उत्पन्न करेगा।
शोधकर्ताओं ने लंदन स्थित स्टेबिलिटी एआई के स्टेबल डिफ्यूजन एल्गोरिथम का उपयोग किया है। एक उपकरण जिसे हम जानते हैं, टेक्स्ट टू इमेज एआई के साथ अविश्वसनीय रूप से शक्तिशाली है।