यह नई तकनीक GPT-4 और इसकी तरह की सभी चीजों को उड़ा सकती है

हालांकि ChatGPT, जिसे ओपनएआई के द्वारा प्रस्तुत किया गया चैटबॉट एआई कार्यक्रम के बारे में सभी में उत्साह है और इसके उत्पादक प्रौद्योगिकी GPT-4, ये प्रोग्राम एक साधारण सॉफ़्टवेयर अनुप्रयोग हैं। और जैसे कि सभी अनुप्रयोगों की समस्याएँ होती हैं, इनकी प्रदर्शन को अनुकूल नहीं बना सकती तकनीकी सीमाएं होती हैं।

मार्च में प्रकाशित एक पेपर में, स्टैनफ़र्ड विश्वविद्यालय और कनाडा के MILA AI संस्थान के AI वैज्ञानिकों ने एक तकनीक का प्रस्ताव किया है जो GPT-4 की तुलना में काफी तेजी से काम कर सकती है - या इससे मिलते जुलते किसी भी तकनीक के साथ - जब बड़ी मात्रा में डेटा को चबाने और इसे उत्पन्न करने में।

इसके अलावा: ये पूर्व-एप्पल कर्मचारी स्मार्टफोन को इस गैजेट से बदलना चाहते हैं

ह्येना के रूप में जाना जाता है, यह तकनीक बेंचमार्क परीक्षणों में समान शुद्धता हासिल करने की क्षमता रखता है, जैसे सवालों के जवाब देने के लिए, इसके बावजूद इस्तेमाल की गई कम्प्यूटिंग पावर के एक टुकड़े का ही. कुछ पाठों को हैना कोड संभाल सकता है, जो GPT-स्टाइल तकनीक को बस यादाश्त से भर कर फेल कर देता है।

हमारे sub-billion पैरामीटर स्तर पर आशाप्रद परिणामों से प्रकट होता है कि ध्यान हमें सब कुछ के लिए आवश्यक नहीं है," लेखक लिखते हैं। वे बात एक 2017 की महत्वपूर्ण AI रिपोर्ट के शीर्षक की ओर संकेत कर रही है, 'Attention is all you need'। उस लेख में, Google वैज्ञानिक अशीष वस्वानी और सहकर्मी ने दुनिया को Google के Transformer AI कार्यक्रम के साथ परिचित कराया। Transformer हाल के बड़े प्राकृतिक भाषा मॉडल के आधार बन गया।

लेकिन Transformer में एक बड़ी खामी है। यह "ध्यान" नामक कोई चीज़ इस्तेमाल करता है, जहां कंप्यूटर प्रोग्राम एक समूह के सूत्रों, जैसे शब्द, में दी गई जानकारी को लेकर उस जानकारी को एक नए समूह के सूत्रों, जैसे कि आप ChatGPT से देखते हैं जो आउटपुट है, में स्थानांतरित करता है।

और इसके अलावा: GPT-4 क्या है? यहां वो सब कुछ है जो आपको जानने की जरूरत है

उस ध्यान देने वाले आपरेशन -- जो सभी बड़े भाषा कार्यक्रमों, जैसे कि ChatGPT और GPT-4, का मुख्य साधन है -- की "द्वाघाती" (quadratic) गणना-सम्पूर्णता होती है (Wiki "time complexity" की गणना प्रकार). यह सम्पूर्णता यह बताती है कि ChatGPT को एक उत्तर पैदा करने के लिए कितना समय लगता है वह प्रविष्टि के रूप में दिए गए डेटा की वृद्धि के वर्ग के रूप में बढ़ती है।

किसी निर्देश में एक समय पर बाद, यदि ज्यादा डेटा होता है - प्रोम्प्ट में बहुत सारे शब्द हों या प्रोग्राम के साथ हजारों घंटे चैट करने की तरंगों के पाठों के कारण - तो संप्रदाय एक उत्तर प्रदान करने में अराम करने लगता है, या इसे तेजी से और तेजी से चलाने के लिए इसे अधिक और अधिक जीपीयू चिप्स दिए जाने की आवश्यकता होती है, जो गणना आवश्यकताओं में एक तेजी के आंधी का कारण बनता है।

नई पेपर में, 'हायेना हायरार्की: लार्जर कनवोल्यूशनल भाषा मॉडल की ओर', जो आरएक्सिव प्री-प्रिंट सर्वर पर पोस्ट किया गया है, मुख्य लेखक स्टांफोर्ड के माइकल पोली और उनके सहकर्मी हायेना नामक सचिव फ़ंक्शन को ट्रांसफ़ॉर्मर के ध्यान समारोह के साथ कुछ सब-चतुर्थांशिक, सब-चतुर्थांशिक ध्यान फ़ंक्शन से बदलने का प्रस्ताव रखते हैं।

इसके अलावा:Auto-GPT क्या है? अगला मज़बूत AI उपकरण के बारे में सब कुछ जानें

लेखक नाम का व्याख्यान नहीं करते हैं, लेकिन "हायना" प्रोग्राम के लिए कई कारणों की कल्पना की जा सकती है। हायना एक पशु है जो अफ्रीका में रहता है और दूर-दूर तक शिकार कर सकता है। एक अर्थ में, एक बहुत शक्तिशाली भाषा मोडल एक हायना की तरह हो सकता है, जो भोजन ढूंढने के लिए मीलों और मीलों तक शिकार करता है।

लेकिन शीर्षक के अनुसार लेखकों को वास्तव में "विभाजन" से संबंधित चिंता होती है, और हायेना के परिवारों के पास एक सख्त विभाजन होता है, जिसके अनुसार स्थानीय हायेना समूह के सदस्यों के विभिन्न स्तरों की प्राधानता स्थापित होती है। किसी तुलनात्मक तरीके में, हायेना प्रोग्राम एक तार के बहुत सारे सरल आपरेशनों को लागू करता है, जैसा कि आप देखेंगे, बार बार, ताकि वे उन्हें डेटा प्रसंस्करण की एक प्रकार के हियरार्की का प्रारूप बनाते हैं। इसी कम्‍बिनेशनियल तत्व के कारण प्रोग्राम को हायेना नाम मिला है।

और इसके अलावा: मुख्य रूप से लोग आज कर रहे कामों के बहुमत हिस्सा चैटजीपीटी के भविष्य में बदल सकते हैं, यह बेन गोर्त्जेल कहते हैं

पेपर के सहयोगी लेखकों में AI दुनिया के प्रसिद्ध व्यक्तित्व शामिल हैं, जैसे कि Yoshua Bengio, MILA के वैज्ञानिक निदेशक, जो 2019 के Turing पुरस्कार के प्राप्तकर्ता हैं, जिसे Nobel पुरस्कार के समकक्ष के रूप में माना जाता है। बेन्गियो को Transformer के लिए यह अनुकूलित करने से पहले attention mechanism का विकसन करने का लाभ दिया जाता है।

इसके अलावा लेखकों में स्टैनफोर्ड विश्वविद्यालय के कंप्यूटर विज्ञान सहयोगी प्रोफेसर क्रिस्टफर रे भी है, जिन्होंने हाल ही में "AI को सॉफ़्टवेयर 2.0" के रूप में आगे बढ़ाने में मदद की है।

एटेंशन के लिए एक सब-द्विघात विकल्प खोजने के लिए, पोली और उनकी टीम ने अध्ययन करना शुरू किया कि एटेंशन मैकेनिज़म जो कर रहा है, वह काम को क्या कर रहा है, देखने के लिए की वह काम को अधिक प्रभावी तरीके से किया जा सकता है।

AI science के एक हालिया अभ्यास, जिसे मेकेनिस्टिक व्याख्यान के रूप में जाना जाता है, नजरीये विज्ञान के आंतरिक "सर्किट" में हो रहा है, एक संज्ञानात्मक न्यूरल नेटवर्क के अंदर क्या हो रहा है के बारे में प्रत्यक्ष ज्ञान प्रदान कर रहा है। इसे आप सोच सकते हैं कि यह सॉफ़्टवेयर को उसके अंशों को देखने और समझने के लिए एक घड़ी या पीसी को खोलने की तरह अलग करने के रूप में होता है।

इसके अलावा:मैंने ChatGPT का उपयोग करके 12 प्रमुख प्रोग्रामिंग भाषाओं में एक ही रूटीन लिखने का प्रयास किया। ऐसा कैसे किया जाएगा

पोली और टीम द्वारा उद्धृत की गई एक कार्य में एंथ्रोपिक नामक ए आई स्टार्टअप के शोधकर्ता नेलसन एलहाज के द्वारा किये गए प्रयोगों का एक सेट है। वे प्रयोग, ट्रांसफॉर्मर प्रोग्राम को अलग अलग करके देखते हैं कि ध्यान क्या कर रहा है।

शाब्दिक रूप में, एल्हेज और उनकी टीम ने यह पाया है कि ध्यान सर्वाधिक आसान कंप्यूटर आपरेशनों के द्वारा संभावित होता है, जैसे कि हाल के इनपुट से एक शब्द की प्रतिलिपि बनाने और उसे आउटपुट में पेस्ट करने के रूप में।

उदाहरण के लिए, यदि कोई एक व्यापक भाषा मॉडल प्रोग्राम जैसे कि ChatGPT में हैरी पॉटर और फिलॉसफर का स्टोन से एक वाक्य टाइप करना शुरू करे, जैसे "मि" तो नाम का प्रारंभ, प्रोग्राम को प्रेरित करने के लिए "डूर्स्ले" नाम पूरा करने के लिए ही काफी हो सकता है क्योंकि यह हैरी पॉटर और फिलॉसफर स्टोन के पहले वाक्य में नाम देख चुका है। सिस्टम पुराने वाक्य में वर्ण "ल-ई" की याददाश्त से वाक्य को स्वतः पूरा करने के लिए यहां मेमोरी से कॉपी कर सकता है।

इसके अलावा:चैटजीपीटी एक इंसानी दिमाग की बजाय एक 'अजनबी बुद्धि' की तरह है, एक भविष्यवाणीज्ञ कहता है

हालांकि, टेक्स्ट की मात्रा बढ़ती हैं तो ध्यान ऑपरेशन चर्चा घटक की सवैधानिकता से प्रबलता समस्या से जूझती हैं। अधिक शब्दों के लिए ज्यादा "वेट" या पैरामीटर होते हैं, जो ध्यान ऑपरेशन चलाने के लिए आवश्यक होते हैं।

जैसा कि लेखक लिखते हैं: "Transformer ब्लॉक एक श्रृंखला मॉडलिंग के लिए एक शक्तिशाली उपकरण है, लेकिन इसके सीमाओं का अनदेखा करने की वजह से यह कंप्यूटेशनल लागत सबसे ज्यादा हो जाती है, जो सिक्यों के लंबाई बढ़ने के साथ-साथ तेजी से बढ़ती है।"

चैटजीपीटी (ChatGPT) और जीपीटी-४ (GPT-4) की तकनीकी जानकारी ओपनएआई द्वारा खुलासा नहीं किया गया है, लेकिन माना जाता है कि इनमें एक ट्रिलियन या इससे भी अधिक पैरामीटर्स हो सकते हैं। ये पैरामीटर्स चलाने के लिए नवीडिया के प्रोसेसर के अधिक GPU चिप्स की जरूरत होती है, जिससे कंप्यूट में खर्च बढ़ता है।

उस क्वाड्रेटिक संगणना लागत कम करने के लिए, पोली और टीम ने ध्यान प्रक्रिया को "कनवोल्यूशन" के साथ बदल दिया, जो AI प्रोग्रामों में सबसे पुराने प्रक्रियाओं में से एक है, 1980 के दशक में समारित हुआ है। एक कनवोल्यूशन बस एक फ़िल्टर है जो डेटा में वस्तुओं को चुन सकता है, चाहे उसके बारे में एक डिजिटल फ़ोटो के पिक्सेल हो या एक वाक्य में शब्द।

इसके अलावा:एआई में सिरमिराने वाले उद्दीपक बेंजियो के मुताबिक, चैटजीपीटी के सफलता ने एआई में गोपनीयता की तरफ नुकसानदायक पलट सकते हैं

Poli और उनकी टीम एक प्रकार का मैशअप करते हैं: वे स्टैनफोर्ड शोधकर्ता डैनियल वाई. फू और उनकी टीम द्वारा किए गए काम को लेते हैं जो शब्दों के सिरों के लिए कंवोल्यूशनल फ़िल्टर लागू करने का है, और उन्होंने परीक्षागार डेविड रोमेरो और उनके सहकर्मी व्रीजे यूनिवर्सिटीट आम्स्टरडम का उनके प्रोग्राम को जहां यह प्रोग्राम परिवर्तनशील ढंग से फ़िल्टर का आकार बदल सकता है, के काम से मिलाते हैं। यह प्रतिक्रियाशील अनुकूलन की क्षमता खर्चीले पैरामीटर्स की संख्या, या प्रोग्राम के वेट्स, को कम करती है।

मैश-अप का परिणाम है कि बहुत सारे पैरामीटर्स और डेटा की कॉपी करने के लिए अनगिनत पाठ पर एक convolution लागू की जा सकती है। यह लेखकों द्वारा कहे गए "attention-free" तरीके का है।

"हैना ऑपरेटर संख्या में पूरी तरह से ध्यान देते हुए गुणवत्ता का अंतर काफी कम कर सकते हैं," पॉली और टीम लिखते हैं, "उपभोक्ता द्वारा प्रश्नसूचकता और निचले स्तर के प्रदर्शन के समान प्रश्न संचारक प्रोग्राम द्वारा उत्पन्न किए जाने वाले जवाब के तर्कशक्तता द्वारा पहुंचें।"

हायेना की क्षमता को प्रदर्शित करने के लिए, लेखक एक सीरीज के खिलाफ प्रोग्राम की परीक्षा करते हैं जो एक भिन्न-भिन्न AI कार्यों पर एक भाषा प्रोग्राम कितनी अच्छी होती है, तय करते हैं।

और: 'सॉफ़्टवेयर में अजीब नए चीज़ें हो रही हैं,' कहते हैं स्टैनफ़ॉर्ड AI प्रोफ़ेसर क्रिस रे

एक टेस्ट है The Pile, जो कि 2020 में Eleuther.ai, एक गैर-लाभकारी AI शोध संगठन द्वारा एकत्रित 825-गिगाबाइट के पाठों का संग्रह है। इन पाठों को "उच्च गुणवत्ता" वाले स्रोतों से एकत्रित किया जाता है, जैसे कि PubMed, arXiv, GitHub, यूएस पेटेंट कार्यालय, आदि, जिससे सोर्सों के पास केवल Reddit चर्चाओं से अधिक पक्षपाती रूप में एक मानकवत्ता होती है।

प्रोग्राम के लिए मुख्य चुनौती थी कि यदि नए वाक्यों का एक समूह प्रविष्टि के रूप में दिया गया हो तो अगला शब्द कैसे प्रस्तुत किया जाए। हायेना प्रोग्राम ने OpenAI के मूल GPT प्रोग्राम के समान स्कोर प्राप्त करने में सफलता प्राप्त की, 2018 की, 20% कम कंप्यूटिंग प्रक्रियाओं के साथ -- "GPT गुणवत्ता से मेल खाने के लिए पहला ध्यान-मुक्त, घुमाव वाली वापरात्मक संरचना" कम प्रक्रियाओं के साथ, अनुसंधानकर्ता लिखते हैं।

अगले, लेखकों ने कार्यक्रम को सुपरग्लुई के रूप में जाने वाले तर्क कार्यों पर परीक्षण किया। इसे २०१९ में न्यूयॉर्क विश्वविद्यालय, फेसबुक ए आई रिसर्च, गूगल के डीपमाइंड इकाई, और वाशिंगटन विश्वविद्यालय के विद्यार्थियों ने पेश किया था।

उदाहरण के लिए, जब वाक्य "मेरे शरीर ने घास पर एक साया छोड़ा" दिया जाता है और कारण के लिए दो विकल्प "सूर्य उदय हो रहा था" या "घास काटी गई थी" दिए जाते हैं, और यह पूछा जाता है कि एक में से एक चुनें, तो प्रोग्राम को "सूर्य उदय हो रहा था" को उचित आउटपुट उत्पन्न करना चाहिए।

कई कार्यों में, Hyena प्रोग्राम ने एक GPT के संस्करण के निकट या समान स्कोर प्राप्त किए हैं जबकि यह कम से कम प्रशिक्षण डेटा के आधे से कम मात्रा पर प्रशिक्षित किया गया है।

इसके अलावा: न्यू बिंग का उपयोग कैसे करें (और यह चैटजीपीटी से कैसा अलग है)

और रोचक बात यह है कि जब लेखकों ने इनपुट के रूप में वाक्यों की लंबाई को बढ़ा दिया तो क्या हुआ: अधिक शब्दों से प्रदर्शन में बेहतर सुधार हुआ। 2,048 "टोकन्स" पर, जिन्हें आप शब्दों के रूप में सोच सकते हैं, हयेना को कम समय लगता है एक भाषा कार्य को पूरा करने में तुलना में विचार धारणा की आवश्यकता होती है।

64,000 टोकनों पर, लेखक बताते हैं, "हायना की गति 100 गुणा तेजी से बढ़ती है" - एक सौ गुना प्रदर्शन में सुधार।

पोली और उनकी टीम का दावा है कि उन्होंने ह्येना के साथ न केवल एक अलग तरीके का प्रयास किया है, बल्कि उन्होंने "द्विघातक बाधा" को तोड़ दिया है, जिसके कारण किसी प्रोग्राम के लिए परिणामों को प्राप्त करना कितना कठिन होता है, इसमें गुणात्मक परिवर्तन हो गया है।

वे कहते हैं कि साधारणतः हमारे लिए नहीं दिखाई दे रही हैं लेकिन आगे जाकर गुणवत्ता में महत्वपूर्ण परिवर्तन भी हो सकता है: "द्विघातीय प्रतिबंध को तोड़ना एक महत्वपूर्ण कदम है नई संभावनाओं की ओर, जैसे पूर्ण पाठ्यपुस्तकों का संदर्भ उपयोग करना, लंबे रचनात्मक संगीत उत्पन्न करना या गिगापिक्सल स्केल छवियों का संसाधन करना," वे लिखते हैं।

हैयेना के लिए एक फ़िल्टर का उपयोग करने की क्षमता, जो हजारों और हजारों शब्दों पर अधिक प्रभावी रूप से फैलता है, लेखकों के अनुसार, इसका मतलब है कि एक भाषा कार्यक्रम में एक प्रश्न के "संदर्भ" की कोई सीमा तय की जा सकती है नहीं। इसका प्रभाव होता है, कि यह वाक्यांश के मौजूद धागे से दूर हटे हुए पहले के बातचीत या पाठों के तत्वों को याद कर सकेगा - जैसे हीयेना मेलों की तरह मीलों के लिए शिकार कर सकता है।

इसके अलावा: सबसे अच्छे एआई चैटबॉट: चैटजीपीटी और उसके अन्य मजेदार विकल्प

"हैना ऑपरेटर्स में असीमित संदर्भ होते हैं," इसे लिखते हैं। "इसका मतलब है कि उन्हें यथार्थ संदर्भ की प्रतिबंधिता नहीं होती है, और [इनपुट] के किसी भी तत्वों के बीच में लंबे समय के आपसी आश्रितताओं को सीख सकते हैं।"

इसके अलावा, शब्दों के साथ-साथ इस प्रोग्राम का उपयोग फोटो और संभवतः वीडियो और ध्वनि के रूप में निर्देशित किए गए डेटा पर भी किया जा सकता है।

इस बात का ध्यान देना महत्वपूर्ण है कि पेपर में दिखाए गए Hyena कार्यक्रम का आकार GPT-4 या यहां तक कि GPT-3 की तुलना में छोटा है। GPT-3 में 175 अरब पैरामीटर या वेट होते हैं, हालांकि Hyena के सबसे बड़े संस्करण में केवल 1.3 अरब पैरामीटर होते हैं। इसलिए, यह देखना बाकी रह गया है कि Hyena GPT-3 या 4 के साथ एक पूर्ण मुकाबले में कितना अच्छा करेगा।

लेकिन, यदि प्राप्त की गई कुशलता Hyena प्रोग्राम के माध्यम से बड़े संस्करणों में भी बरकरार रहती है, तो यह पिछले दशक की तरह मान्यता के रूप में मानाई जा सकती है।

जैसा कि पोली और उनकी टीम निष्कर्ष निकालते हैं: "हायेना जैसे सरल सब-क्वाड्रेटिक डिज़ाइन, जिन्हें कुछ सरल मार्गदर्शक सिद्धांतों द्वारा सूचित किया जाता है और यांत्रिक व्याख्यानीयता के मानकों पर मूल्यांकन किया गया है, विशाल मॉडलों के लिए कुशलतापूर्ण आधार बना सकते हैं।"

यह नई तकनीक GPT-4 और इस जैसे सभी को फेंक सकती है

संबंधित लेख