मिडजर्नी, स्टेबल डिफ्यूजन और DALL-E2 जैसे जेनरेटिव एआई टूल्स ने चंद सेकंड में ही शानदार छवियां बनाने की अपनी क्षमता से दुनियाभर को आश्चर्यचकित कर दिया है. हालांकि अभी तक अपनी कई उपलब्धियों के बावजूद, एआई छवि जनरेटर (AI image generator) क्या उत्पादन कर सकते हैं और हम क्या कर सकते हैं? के बीच एक अजीब असमानता बनी हुई है. उदाहरण के लिए, ये उपकरण अक्सर वस्तुओं की गिनती और सटीक पाठ तैयार करने जैसे सरल दिखने वाले कार्यों के लिए संतोषजनक परिणाम नहीं देते हैं.
यदि जनरेटिव एआई रचनात्मक अभिव्यक्ति में इतनी अभूतपूर्व ऊंचाइयों तक पहुंच गया है, तो इसे उन कार्यों के साथ संघर्ष क्यों करना पड़ता है जिन्हें एक प्राथमिक विद्यालय का छात्र भी अच्छे से कर सकता है? अंतर्निहित कारणों की खोज से AI की जटिल संख्यात्मक प्रकृति और इसकी क्षमताओं की बारीकियों पर प्रकाश डालने में मदद मिलती है
मनुष्य विभिन्न फ़ॉन्ट और लिखावट में लिखे गए पाठ प्रतीकों (जैसे अक्षर, संख्या और चिन्हों) को आसानी से पहचान सकते हैं.हम विभिन्न संदर्भों में भी पाठ तैयार कर सकते हैं, और समझ सकते हैं कि संदर्भ कैसे अर्थ बदल सकता है. वर्तमान एआई छवि जनरेटर में इस अंतर्निहित समझ का अभाव है.उन्हें इस बात की कोई सच्ची समझ नहीं है कि किसी पाठ प्रतीक का क्या मतलब है.
ये जनरेटर बड़ी मात्रा में छवि डेटा पर प्रशिक्षित कृत्रिम तंत्रिका नेटवर्क पर बनाए गए हैं, जिससे वे संबंधों को सीखते हैं और भविष्यवाणियां करते हैं.
प्रशिक्षण छवियों में आकृतियों का संयोजन विभिन्न चीजों से जुड़ा हो सकता है.उदाहरण के लिए, अंदर की ओर मिलने वाली दो रेखाएं पेंसिल की नोक या घर की छत का प्रतिनिधित्व कर सकती हैं.
लेकिन जब पाठ और मात्रा की बात आती है, तो जुड़ाव अविश्वसनीय रूप से सटीक होना चाहिए, क्योंकि छोटी-मोटी खामियां भी ध्यान देने योग्य होती हैं. हमारा दिमाग पेंसिल की नोक, या छत में मामूली विचलन को नजरअंदाज कर सकता है – लेकिन जब कोई शब्द कैसे लिखा जाता है, या हाथ पर उंगलियों की संख्या की बात आती है, तो इसे नजरअंदाज नहीं किया जा सकता.
जहां तक टेक्स्ट-टू-इमेज मॉडल का सवाल है, टेक्स्ट प्रतीक केवल रेखाओं और आकृतियों का संयोजन हैं.चूंकि पाठ कई अलग-अलग शैलियों में आता है – और चूंकि अक्षरों और संख्याओं का उपयोग अंतहीन व्यवस्था में किया जाता है – मॉडल अक्सर यह नहीं सीख पाएगा कि पाठ को प्रभावी ढंग से कैसे पुन: पेश किया जाए.
इसका मुख्य कारण अपर्याप्त प्रशिक्षण डेटा है. एआई छवि जनरेटर को अन्य कार्यों की तुलना में पाठ और मात्राओं को सटीक रूप से प्रस्तुत करने के लिए बहुत अधिक प्रशिक्षण डेटा की आवश्यकता होती है.
छोटी वस्तुओं, जैसे हाथों, के साथ काम करते समय भी समस्याएँ उत्पन्न होती हैं, जिनके लिए जटिल विवरण की आवश्यकता होती है. प्रशिक्षण छवियों में, हाथ अक्सर छोटे होते हैं, वस्तुओं को पकड़ते हैं, या अन्य तत्वों द्वारा आंशिक रूप से अस्पष्ट होते हैं.एआई के लिए “हाथ” शब्द को पांच अंगुलियों वाले मानव हाथ के सटीक प्रतिनिधित्व के साथ जोड़ना चुनौतीपूर्ण हो जाता है.
नतीजतन, AI-जनित हाथ अक्सर बेडौल दिखते हैं, उनमें अतिरिक्त या कम उंगलियां होती हैं, या हाथ आंशिक रूप से आस्तीन या पर्स जैसी वस्तुओं से ढके होते हैं.
जब मात्रा की बात आती है तो हम एक समान मुद्दा देखते हैं.एआई मॉडल में मात्राओं की स्पष्ट समझ का अभाव है, जैसे ‘चार’ की अमूर्त अवधारणा.
इस प्रकार, एक छवि जनरेटर कई मात्रा में सेब दिखाने वाली असंख्य छवियों से सीखकर ‘चार सेब’ के संकेत का जवाब दे सकता है – और गलत मात्रा के साथ आउटपुट लौटा सकता है.
दूसरे शब्दों में, प्रशिक्षण डेटा के भीतर संबंधों की विशाल विविधता आउटपुट में मात्रा की सटीकता को प्रभावित करती है.
यह याद रखना महत्वपूर्ण है कि टेक्स्ट-टू-इमेज और टेक्स्ट-टू-वीडियो रूपांतरण एआई में अपेक्षाकृत नई अवधारणा है.वर्तमान जेनरेटिव प्लेटफ़ॉर्म भविष्य में हम जो उम्मीद कर सकते हैं उसके कम-रिज़ॉल्यूशन’ संस्करण हैं. प्रशिक्षण प्रक्रियाओं और एआई प्रौद्योगिकी में हो रही प्रगति के साथ, भविष्य के एआई छवि जनरेटर संभवतः सटीक विज़ुअलाइज़ेशन उत्पन्न करने में अधिक सक्षम होंगे.
यह भी ध्यान देने योग्य है कि अधिकांश सार्वजनिक रूप से सुलभ एआई प्लेटफ़ॉर्म उच्चतम स्तर की क्षमता प्रदान नहीं करते हैं.सटीक पाठ और मात्राएँ उत्पन्न करने के लिए अत्यधिक अनुकूलित नेटवर्क की आवश्यकता होती है.