
AI की दुनिया में एक 25 साल के आईआईटियन ने कमाल कर दिया है। आईआईटी-बीएचयू के इस युवा ने दुनिया का पहला इमोशनल वॉइस-टू-वॉइस एआई मॉडल Luna बनाया है। यह एआई मॉडल इंसानों की तरह गा सकता है, बात करते हुए रूक सकता है और फुसफुसा भी सकता है। आईआईटी-बीएचयु से पढ़ाई पूरी करने वाले इनोवेटर स्पर्श अग्रवाल ने इस एआई मॉडल को जयपुर बेस्ड स्टार्टअप Pixa AI के साथ मिलकर डिजाइन किया है।
क्या है Luna?
PTI की रिपोर्ट के मुताबिक, यह एआई मॉडल ऑडियो को डायरेक्ट प्रोसेस कर सकता है। साथ ही, यह एआई मॉडल इंसानों की तरह इमोशन यानी भाव से भरे हुए स्पीच जेनरेट कर सकता है। यह एआई मॉडल इमोशनल कम्युनिकेशन के काम आ सकता है। इसमें टोन को मॉड्यूलेट करने, गाना गाने और इंसानों की तरह भाव के साथ बातचीत करने की समझ है।
यह एआई मॉडल ChatGPT और Google Gemini जैसे कन्वेंशनल एआई मॉडल से अलग है, जो केवल टेक्स्ट पर आधारित नहीं है। यह वॉइस कमांड को वॉइस में रिप्लाई कर सकता है। सबसे अच्छी बात ये है कि इस एआई मॉडल के साथ आप इंसानों की तरह अपने इमोशन को शेयर कर सकते हैं। यह एआई मॉडल गाना भी गा सकता है।
स्पर्श अग्रवाल ने अपने X हैंडल से इस एआई मॉडल का एक वीडियो शेयर किया है। Luna एआई मॉडल की खास बात यह है कि आईआईटी बीएचयु से पढ़ाई करने वाले इनोवेटर को इसे बनाने के लिए न तो किसी बड़े कार्पोरेट इनफ्रास्ट्रक्चर और न ही बड़े इन्वेस्टमेंट की जरूरत पड़ी है। इस एआई मॉडल को तैयार करने के लिए बड़े रिसर्च लैब की जरूरत नहीं पड़ी, जिसके लिए 100 मिलियन अमेरिकी डॉलर का इन्वेस्टमेंट की जरूरत पड़े। इसके बस कुछ GPU उधार लेना पड़ा।
इन सब के बावजूद यह एआई मॉडल लूना लीडिंग सिस्टम जैसे कि OpenAI के GPT-4 TTS और Elevenlabs के मॉडल को आउटपरफॉर्म कर सकता है। इसमें इन सबके मुकाबले 50 प्रतिशत तक कम लैटेंसी देखी गई और इसका स्पीच आउटपुट काफी नेचुरल लगा है।




