ओपनएआई का विशालकाय जीपीटी-3 एआई के लिए भाषा मॉडल की सीमाओं पर संकेत देता है

चारों दिशाओं से विपरीत दिशाएंँ स्थापित और आव्रजित होने से दो लत्तू एक समान नहीं होते, ऐंठे के आगे सुख (मानवीय)।

उस टीम के ताज़ा काम से दिखता है कि OpenAI की सोच कुछ मायनों में विकसित हो गई है। GPT-3, जैसा कि नवीनतम रचना कहलाता है, पिछले हफ़्ते सामने आया, और इसमें अधिक तरंग-तरंग हैं, पिछले संस्करण के कुछ ही लेखकों द्वारा बनाया गया है, जिनमें Alec Radford और Ilya Sutskever शामिल हैं, साथ ही कई और सहयोगी भी हैं, जिनमें Johns Hopkins University के वैज्ञानिक भी शामिल हैं।

यह अब एक सचमुच विशाल भाषा मॉडल है, जैसा कि इसे कहा जाता है, इसके पूर्वज से दो आदेश अधिक पाठ को ग्रस्त करता है।

लेकिन इस बड़ी है बेहतर की हकीकत के अंदर, OpenAI टीम एक कुछ गहरी सत्यताओं की ओर आ रही है, जैसे डॉ। डेविड बोमन ने फिल्म 2001 के अंत में जाने वाली ज्ञात की सीमाओं के दोराहे तक पहुंचा।

७२ पेज के इस पेपर के संपादकीय खंड में छिपी हुई है, भाषा मॉडल फ्यू-शॉट लर्नर हैं, जो पिछले हफ्ते arXiv प्री-प्रिंट सर्वर पर पोस्ट किया गया था, एक बहुत ही चौंकाने वाली मान्यता है।

"इस पेपर में वर्णित सामान्य तरीके की एक और मूल अवधारणा की सीमा – किसी भी एलएम-जैसे मॉडल को माप बढ़ाने की, चाहे वह आटोरिग्रेसिव हो या द्विदिशा – यह है कि इसे पहले प्रशिक्षण की उद्देश्यता की सीमा के साथ निपटना पड़ सकता है (या शायद पहले से ही निपट रहा हो)।," लेखकों ने लिखा है।

जो लेखक कह रहे हैं, उसका मतलब है कि किसी भी वाक्य या वाक्यांश में अगले शब्द की संभावनाओं का संकेत करने वाला एक संज्ञानात्मक नेटवर्क बनाना उसकी सीमाओं की हो सकती है। इसे और ताकतवर बनाने और इसे और बहुत अधिक पाठ में लदने से बेहतर परिणाम नहीं मिल सकते हैं। यह एक महत्वपूर्ण स्वीकार है पेपर के भीतर, जो ज्यादातर समस्या कोई भी कम्प्यूटिंग पॉवर हॉव को फेंकने की उपलब्धि का जश्न मना रहा है।

इस निष्कर्ष की महत्वता को समझने के लिए, हमें यह ध्यान में रखना चाहिए कि हम यहाँ कैसे पहुंचे। भाषा पर समान ऋणात्मक प्रगति के इतिहास के हिस्से के रूप में OpenAI कार्य का इतिहास होता रहा है, जिसकी महत्वाकांक्षी तकनीक को बड़ा और बड़ा और बड़ा बनाते हुए सफलता सेो यह उत्पन्न होती गई।

मूल GPT और GPT-2, दोनों ही Google में 2017 में प्रारंभिक किए गए एक आविष्कार जिसे Transformer के रूप में जाना जाता है की संशोधन हैं। Transformer एक जानकारी को ले कर शब्दों के चारों ओर के शब्दों के दिए गए प्राबबिलित को गिनवाने के लिए एक फ़ंक्शन इस्तेमाल करता है। एक साल पहले, OpenAI ने बड़े संस्करण वाले GPT-2 को स्रोत कोड जारी न करने का निर्णय लिया था, क्योंकि उसने कहा था कि यह कोड गलत हाथों में पहुंच सकता है और ऐसे चीजों का इस्तेमाल किया जा सकता है जैसे फेक न्यूज़ के माध्यम से लोगों को गुमराह करने के लिए।

नये पेपर ने GPT को और बड़े भी बना दिया है। GPT-2 का सबसे बड़ा संस्करण, जो स्रोत रूप में पोस्ट नहीं किया गया था, 1.5 अरब पैरामीटर्स थे। GPT-3 में 175 अरब पैरामीटर्स हैं। पैरामीटर एक न्यूरल नेटवर्क में एक हिसाब की गणना है जो डेटा के किसी पहलू को अधिक या कम मान्यता देने के लिए एक महत्वपूर्ण मानक को लागू करती है, जिससे डेटा की कुल गणना में उस पहलू को अधिक या कम प्रधानता मिलती है। यही वजह है कि इन मापों ने डेटा को आकार दिया है, और न्यूरल नेटवर्क को डेटा पर सीखी हुई दृष्टिकोण प्राप्त होती है।

समय के साथ वजन बढ़ने में प्रमुख परख परिणाम 'जीपीटी' प्रोग्रामों के परिवार और अन्य बड़े ट्रांसफॉर्मर उपशाखाओं जैसे Google के 'बर्ट' द्वारा बेहतर परिणामों तक पहुंच गये हैं, जो हमेशा बहुत प्रभावशाली होते हैं।

कोई बात नहीं कि कई लोगों ने यह संकेत दिया है कि इन भाषा मॉडल में से कोई भी वास्तव में किसी भाषा को समझ नहीं रही थी। वे परीक्षाओं में भारी बजा रहे थे, और कुछ तो काफी मायने रखता है।

यह नवीनतम संस्करण फिर से मात्रात्मक प्रगति दिखाता है। GPT-2 और अन्य ट्रांसफॉर्मर-आधारित प्रोग्रामों की तरह, GPT-3 को कॉमन क्रॉल डेटा सेट पर प्रशिक्षित किया गया है, जो वेब से स्क्रैप की गई टेक्स्ट के लगभग तिलियों शब्दों का एक संकलन है। "डेटासेट और मॉडल का आकार GPT-2 के उपयोग किए जाने वाले किताबों की तुलना में दो गोलियों की बहुत बड़ी हैं," लेखक लिखते हैं।

GPT-3 में 175 अरब पैरामीटर होने के कारण इसे विद्वानों द्वारा "मेटा-सीखना" के रूप में वर्णित किया गया है। मेटा-सीखना का अर्थ है कि GPT न्यूरल नेट को किसी वाक्य पूरा करने जैसे कार्य के लिए पुनः प्रशिक्षित नहीं किया जाता है। एक कार्य के उदाहरण के रूप में, जैसे एक अधूरे वाक्य के लिए, और उसके बाद पूर्ण वाक्य के लिए, GPT-3 किसी भी अधूरे वाक्य को पूरा करने का प्रयास करेगा।

GPT-3 केवल एक प्रॉम्प्ट के साथ किसी टास्क को सीखने में सक्षम है, कुछ मामलों में संशोधित ट्रांसफ़ॉर्मर के संस्करणों से बेहतर है, जो विशेष रूप से केवल उसी टास्क को करने के लिए तैयार किए गए हैं। अतएव, GPT-3 एक महाप्रभुत्व की जीत है। केवल जब तक आप उसकी वेट आदान-प्रदान एक विशाल मात्रा के टेक्स्ट से करते हैं, और निरामय होते हैं, तो यह नमूना कुछ विशेष टास्कों पर काफी अच्छा प्रदर्शन कर सकता है, किसी अन्य विकास के बिना।

यहाँ कहानी एक आकर्षक निर्णायकता की ओर जाती है, जहाँ नई कागज़ में। वाक्यों को पूरा करने से शुरू करके बयानों के तार्किक प्राप्ती और भाषाओं के बीच अनुवाद करने जैसे भाषा कार्यों पर GPT-3 के प्रभावशाली परिणामों की सूची देने के बाद, लेखक दोषों पर ध्यान देते हैं।

यद्यपि जीपीटी-३ की मजबूताओं में संख्यात्मक और गुणात्मक सुधार हुए हैं, विशेषतः इसकी सीधे पूर्ववर्ती जीपीटी-२ की तुलना में, फिर भी इसके कुछ महत्वपूर्ण कमजोरी हैं।

उन कमजोरियों में एक ऐसी अक्षमता शामिल है जिससे ध्यान यहां से हटता है कि सामरिक NLI का प्रमुख योग्यता हासिल किया जाए। NLI, यानी प्राकृतिक भाषा संबंध, एक परीक्षा है जिसमें कार्यक्रम को दो वाक्यों के बीच के संबंध का निर्धारण करना होता है। फेसबुक और उत्तर कैरोलिना विश्वविद्यालय के शोधकर्ताओं ने विपरीतार्थक संस्करण पेश किया है, जहां मानव उन वाक्य जोड़ों को बनाते हैं जो कंप्यूटर के लिए हल करना मुश्किल होते हैं।

GPT-3 के लिए प्राथमिकता की तुलना में "यह कुछ हद तक भाग्यसूत्र से बेहतर करता है", लेखकों ने लिखा है। और विशेषतः, इनकी प्रणाली के प्रोसेसिंग पावर को 175 बिलियन वेटों तक बढ़ाने के बावजूद, लेखकों को कुछ कार्यों में संकोच क्यों आ रहा है, यह वे पूरी तरह से नहीं समझ पा रहे हैं।

वहीं जब वे उस निर्णय पर पहुंचते हैं, जिसे ऊपर उद्धृत किया गया है, कि शायद बसवां विशालतम मशीन को केवल एक विशाल संग्रहित पाठ का भोजन कराना अंतिम उत्तर नहीं है।

और और भी अद्भुत है अगला अवलोकन। भाषा के साथ क्या होने वाला हैं पूर्वानुमान करने का पूरा अभ्यास गलत हो सकता है, लेखक लिखते हैं। वे गलत स्थान पर लक्ष्य साध हो सकते हैं।

"अपनी-स्व-परीक्षित उद्देश्यों के साथ, कार्य विशिष्टता पर अनुकरण दबाव डालता है, जहां वास्तव में, उपयोगी भाषा प्रणालियाँ (उदाहरण के लिए, वर्चुअल सहायक) केवल भविष्यवाणियों के साथ काम करने की बजाए लक्ष्य-निर्दिष्ट कार्रवाई करने के रूप में बेहतर देखी जा सकती है।"

लेखक इस दिलचस्प नई संभावित दिशा को किस तरह लेने का निर्णय लेने के लिए इसे दूसरी बार छोड़ देते हैं।

यहां बड़ा होने ही बेहतर नहीं होने की जागरूकता के बावजूद, बहुत सी कार्यों पर GPT-3 के सुधारे हुए परिणामों के कारण, बड़े और बड़े न्यूरल नेटवर्क के प्रति इच्छा तेजी से बढ़ रही है। 175 अरब पैरामीटर के साथ, GPT-3 बड़े न्यूरल नेटवर्कों के राजा है, कम समय में। एआई चिप कंपनी Tenstorrent में एक प्रस्तुति ने वरिष्ठ न्यूरल नेटवर्क को एक ट्रिलियन से अधिक पैरामीटर के साथ आगे की प्रोफ़ाइल देते हुए बताया है।

एक अच्छे हिस्से मैशीन लर्निंग समुदाय के लिए, बड़ा और बड़ा भाषा मॉडलिंग राजदर्शी बना रहेगा।

ओपनएआई का विशालकाय GPT-3 आर्टिफिशियल इंटेलिजेंस के लिए भाषा मॉडल्स की सीमाओं पर इशारा करता है।

संबंधित लेख