ओपनएआई जीपीटी-४ मध्य मार्च २०२३ में आ रहा है।

gpt-4-640b66db8c60d-sej-1520x800.jpg

माइक्रोसॉफ्ट जर्मनी के सीटीओ, आंद्रियास ब्राउन, ने पुष्टि की है कि GPT-4 2023 के 9 मार्च के सप्ताह में आ रहा है और यह मल्टीमोडल होगा। मल्टीमोडल एआई का आर्थ होता है कि यह वीडियो, छवि और ध्वनि जैसे कई प्रकार के इनपुट के भीतर कार्य कर सकेगा।

ताज़ा किया गया: GPT-4 का रिलीज़ हूआ 14 मार्च, 2023 को

ओपनएआई ने GPT-4 को 14 मार्च, 2023 को रिलीज किया। यह एक मल्टीमोडल मॉडल है जो छवि और पाठ प्रोम्प्ट को स्वीकार करता है।

मोडल एक मशीन लर्निंग में प्रयुक्त मुहावरा है जो पाठ की तरह के इनपुट को दर्शा सकता है, जैसे कि ध्वनि, दृश्य, गंध आदि।

ओपनएआई की घोषणा ने GPT-4 की प्रगतियों के माप का वर्णन किया:

“…हालांकि बहुत सारे वास्तविक दुनियावी परिदृश्यों में मानवों की तुलना में कम क्षमता वाला है, यह सभी पेशेवर और शैक्षणिक मापदण्डों पर मानव स्तर के प्रदर्शन पेश करता है.

उदाहरण के लिए, इसकी प्रकृतिक बार परीक्षा में यह शीर्ष 10% परीक्षार्थियों के चारों ओर जाने वाले अंक प्राप्त करता है; उपयोग की बात करें तो GPT-3.5 के प्राप्तांक केवल निचले 10% परीक्षार्थियों की ओर थे.

हमने अभिप्रेतक परीक्षण कार्यक्रम और ChatGPT के सबक से लिये गए अनुभव का उपयोग करके GPT-4 को 6 महीने तक बार बार समान रूप से संरेखित किया है, इसके परिणामस्वरूप हमारे अब तक के सर्वश्रेष्ठ परिणाम हैं (हालांकि पूर्णता से बहुत दूर) तथ्य nकी मान्यता, निर्देशित करने की क्षमता और संरक्षण पर बाहर ना निकलने की क्षमता पर.”

मल्टीमोडल बड़े भाषा मॉडल

इस घोषणा से मुख्य बात यह है कि जीपीटी-4 बहुमोदी है (SEJ ने जनवरी 2023 में जीपीटी-4 बहुमोदी होने की पूर्वानुमानित की थी।)

मोडालिटी (Modality) एक संदर्भ है जो (इस मामले में) एक बड़े भाषा मॉडल द्वारा संबंधित इनपुट प्रकार की परिभाषा होती है।

मल्टीमोडल टेक्स्ट, भाषण, छवियाँ और वीडियो को समावेश कर सकता है।

GPT-3 और GPT-3.5 केवल एक प्रकार के होते हैं, यानी पाठ।

जर्मन समाचार रिपोर्ट के अनुसार, GPT-4 संभवतः चार तरीकों में काम कर सकता है, छवियाँ, ध्वनि (श्रुतियों), पाठ और वीडियो।

डॉक्टर आंद्रियास ब्राउन, माइक्रोसॉफ्ट जर्मनी के CTO द्वारा यह कहा गया है:

“हम अगले हफ़्ते GPT-4 को पेश करेंगे, वहां हमें मल्टीमोडल मॉडल होंगे जो पूरी तरह से अलग-अलग संभावनाएं प्रदान करेंगे - जैसे कि वीडियो…”

रिपोर्टिंग में GPT-4 के लिए विशेषताएं अनकट हैं, इसलिए यह स्पष्ट नहीं है कि मल्टीमोडालिटी के बारे में जो कुछ साझा किया गया है, वह GPT-4 के लिए विशेष था या सामान्य रूप से ही था।

माइक्रोसॉफ्ट डायरेक्टर बिजनेस स्ट्रैटेजी होल्गर केन ने मल्टीमोडालिटी की व्याख्या की, लेकिन रिपोर्टिंग अस्पष्ट थी कि वह जीपीटी-4 मल्टीमोडालिटी की बात कर रहे थे या अपूर्णयोर्थ मल्टीमोडालिटी की।

मुझे लगता है कि उसके मल्टिमोडैलिटी संदर्भ GPT-4 के लिए थे।

समाचार रिपोर्ट साझा की गई:

“केन्न ने स्पष्ट किया कि बहुविधात्मक ए.आई. क्या है, जिसमें टेक्स्ट को न केवल तस्वीरों में ही अनुसार बदल सकता है, बल्कि संगीत और वीडियो में भी।”

एक और रोचक तथ्य यह है कि माइक्रोसॉफ्ट यह सुनिश्चित करने के लिए “आत्मविश्वास माप” पर काम कर रहा है कि उनकी AI को तथ्यों के साथ ग्राउंड करें और इसे और अधिक विश्वसनीय बनाएँ।

माइक्रोसॉफ्ट कोसमोस-1

एक ऐसी बात जो संयुक्त राज्य अमरीका में अपर्याप्त रूप से रिपोर्ट की गई थी, वह है कि माइक्रोसॉफ्ट ने मार्च 2023 की शुरुआत में Kosmos-1 नामक एक बहुविधिक भाषा मॉडल जारी किया।

जर्मन समाचार साइट Heise.de की रिपोर्ट के अनुसार:

"...टीम ने प्री-त्रेन किए गए मॉडल पर विभिन्न परीक्षणों को समर्पित किया, जिसमें छवियों का वर्गीकरण, छवि सामग्री के बारे में सवालों के जवाब देना, छवियों के स्वचालित लेबलिंग, ऑप्टिकल पाठ संज्ञानन और वाणिज्य उत्पत्ति कार्य आदि में अच्छे परिणाम मिले।"

...यहाँ चित्रों के बारे में भाषा का इस्तेमाल किए बिना नतीजों का आकलन करने, भी दृश्यात्मक तर्क एक महत्वपूर्ण कारक लगता है...

Kosmos-1 एक मल्टीमोडल मोडल है जो पाठ और छवि की मोडालिताओं को एकीकृत करता है।

GPT-4 कोस्मोस-1 से और आगे जाता है क्योंकि यह एक तीसरे बहुलक को जोड़ता है, वीडियो, और ध्वनि का भी अनुमानित लगता है।

अनेक भाषाओं में काम करता है

GPT-4 सभी भाषाओं पर काम करने की प्रतीति दिखा रहा है। इसे जर्मन में प्रश्न पूछा जा सकता है और इतालवी में जवाब दिया जा सकता है।

यह थोड़ा अजीब उदाहरण है क्योंकि कोई कौनसा प्रश्न जर्मन में पूछेगा और इतालवी में उत्तर पाना चाहेगा?

यह है जो पुष्टि हुई:

"...यह तकनीक इतनी आगे बढ़ गई है कि यह 'सभी भाषाओं में कार्य करता है': आप जर्मन में सवाल पूछ सकते हैं और इतालियन में जवाब प्राप्त कर सकते हैं।"

मल्टीमोडैलिटी के साथ, माइक्रोसॉफ्ट(-ओपनए) 'मॉडलों को व्यापक बना देगा।'"

मुझे लगता है कि इस अभियांत्रिकी के द्वारा प्रगट होने का मकसद यह है कि यह मॉडल भाषा को पार करके ज्ञान को विभिन्न भाषाओं में प्राप्त करने की क्षमता के साथ है। तो यदि जवाब इटालियन में है, तो यह इसे जानेगा और प्रश्न की भाषा में जवाब प्रदान कर सकेगा।

ऐसा करने से गूगल के मल्टीमोडल AI MUM के लक्ष्य के समान हो जाएगा। माता-पिता कहते हैं कि यह जापानी जैसी किसी अन्य भाषा में मौजूद डेटा के लिए अंग्रेजी में जवाब देने की क्षमता होगी।

GPT-4 अनुप्रयोग

वर्तमान में GPT-4 के आगमन की कोई घोषणा नहीं है। लेकिन Azure-OpenAI को विशेष रूप से उल्लेख किया गया था।

गूगल माइक्रोसॉफ़्ट को पीछे छोड़ने के लिए एक मुकाबला तकनीक को अपने खुद के खोज इंजन में शामिल करने के लिए संघर्ष कर रहा है। यह विकास और भी बढ़ा देता है कि गूगल पीछे हो रहा है और उपभोक्ता-मुख्य एआई में नेतृत्व की कमी है।

Google पहले से ही अपने कई प्रोडक्टों में AI को एकीकृत करता है जैसे Google Lens, Google Maps और अन्य क्षेत्रों में जहाँ उपयोगकर्ता Google के साथ इंटरैक्ट करते हैं। यह दृष्टिकोण AI का इस्तेमाल एक सहायक प्रौद्योगिकी के रूप में करना है, जो लोगों की मदद करेगा छोटे-छोटे कार्यों में।

माइक्रोसॉफ़्ट इसे अपनाने का तरीका अधिक दिखाई देता है और इस कारण यह सभी ध्यान को आकर्षित कर रहा है और गूगल की तस्वीर को मजबूत और विफलता की ओर दौड़ करने के लिए पुनर्स्थापित कर रहा है।

आधिकारिक OpenAI GPT-4 रिलीज घोषणा यहाँ पढ़ें।

यहां मूल जर्मन रिपोर्टिंग पढ़ें:

GPT-4 अगले सप्ताह आ रहा है - और यह मल्टीमोडल होगा, माइक्रोसॉफ्ट जर्मनी कहता है।

संबंधित लेख

अधिक देखें >>

HIX.AI के साथ AI की शक्ति को अनलॉक करें!