डेवलपर पहुंच के लिए आपका PaLM API खोलने के साथ-साथ, क्या Google भारत में डेवलपर परियोजनाओं का समर्थन भी करेगा?
आज, बहुत सारे स्टार्टअप और डेवलपर ऐसे समाधान बनाना चाहते हैं जो इन ग्राहकों को सेवा प्रदान करें। अब हम उन्हें इन समाधानों के निर्माण के लिए हमारे एपीआई का उपयोग शुरू करने में सक्षम बना रहे हैं। हमारे पास ग्राहक इंजीनियरिंग इकाइयों और हमारे Google क्लाउड डिवीजन सहित विभिन्न टीमें भी हैं, जिनके पहले से ही कई डेवलपर्स के साथ पहले से मौजूद संबंध हैं। उसके आधार पर, ये टीमें हमारे जेनेरिक एआई एपीआई का अधिकतम लाभ उठाने के संदर्भ में आगे सहायता और सहायता प्रदान करेंगी।
भारतीय संस्थानों के शोधकर्ताओं को स्थानीय भाषाओं में डिजीटल डेटासेट की उपलब्धता के साथ संघर्ष करना पड़ा है। क्या Google का डेटासेट अब संस्थानों के लिए उपलब्ध होगा?
हम पहले से ही ऐसा कर रहे हैं – प्रोजेक्ट वाणी भारतीय विज्ञान संस्थान (आईआईएससी) के सहयोग से किया गया था। इसके माध्यम से, हम एआई शोधकर्ताओं के लिए इंडिक भाषाओं के लिए पहला डिजिटल डेटासेट देख रहे हैं।
जब हमने 125 भारतीय भाषाओं के लिए एकल जेनरेटिव एआई मॉडल स्थापित करने पर काम करना शुरू किया, तो ये सभी भाषाएं थीं जिन्हें शोधकर्ता शून्य-कॉर्पस कहते थे। ऐसा नहीं है कि हमारे पास बहुत कम डेटा था – उनमें से कई के लिए, हमारे पास बिल्कुल भी डिजिटलीकृत डेटा नहीं था। पहली बार, हम कई भारतीय भाषाओं को शून्य-कॉर्पस से कम-से-कम निम्न-संसाधन स्तर पर ले जाने में कामयाब रहे हैं।
यह सारा डेटा अब ओपन-सोर्स है, जिसका अर्थ है कि यह अब अकादमिक शोधकर्ताओं, स्टार्टअप और यहां तक कि बड़ी कंपनियों के लिए भी खुले तौर पर उपलब्ध है। यह केवल पहली किश्त है – आने वाले महीनों और अगले एक वर्ष में, हम अपने डेटाबेस में अधिक भारतीय भाषा डेटा उपलब्ध कराते रहेंगे। ऐसा होता रहेगा क्योंकि हम भारत भर के और अधिक जिलों में अपने प्रयासों को बढ़ाते रहेंगे, जिसके माध्यम से हमारे पास जो डेटासेट है वह और अधिक विविध हो जाएगा।
आपने भारत में स्थानीय भाषा पूर्वाग्रह बेंचमार्क भी ओपन-सोर्स किया है। यह देखते हुए कि भारतीय भाषाओं पर डेटा अभी भी इतना दुर्लभ है, क्या इस स्तर पर एआई पूर्वाग्रह को संबोधित करना संभव है?
पहली और सबसे महत्वपूर्ण बात जो हमने पूर्वाग्रह के तहत की, वह थी इस मुद्दे को गैर-पश्चिमी संदर्भ में समझना शुरू करना। यदि आप पूर्वाग्रह पर अधिकांश एआई साहित्य को देखें, तो दो साल पहले तक, यह सब – नस्ल और लिंग-आधारित पूर्वाग्रहों को समझने सहित – पश्चिमी संदर्भ में थे। इसलिए, हमने जो पहचाना वह यह है कि यहां एक प्रमुख सामाजिक संदर्भ है – उदाहरण के लिए, भारत में, पूर्वाग्रह की कई अतिरिक्त धुरी हैं जो जाति, धर्म और अन्य पर आधारित हैं। हम इन्हें समझना चाहते थे. इस संबंध में एक तकनीकी अंतर है, क्योंकि अंग्रेजी जैसी अधिक परिपक्व भाषाओं की तुलना में भारतीय भाषाओं में भाषा मॉडल की क्षमता कम थी। यह सर्वविदित है कि एलएलएम मतिभ्रम कर सकता है, जिससे आउटपुट परिणामों में गलत सूचना मिलती है। इसलिए, कम संसाधन वाली भाषाओं में समस्याएं (जैसे कि पूर्वाग्रह की) अक्सर बदतर हो जाती हैं।
फिर, मूल्यों को संरेखित करने का एक स्तंभ भी है। उदाहरण के लिए, जबकि पश्चिमी सांस्कृतिक संदर्भ में एक बुजुर्ग उपयोगकर्ता के प्रश्नों का शांत वाक्यांशों में सामना करना स्वीकार्य है, भारत के भीतर ऐसा जरूरी नहीं है।
हम इन मुद्दों को भारतीय सांस्कृतिक संदर्भ में समझना चाहते थे – डेटा का तकनीकी अंतर सिर्फ एक पहलू है जो भारतीय संदर्भ में पूर्वाग्रह को समझने के मामले में गायब था। इसलिए यह भारतीय संदर्भ में अंग्रेजी पर भी लागू होगा।
इन पूर्वाग्रहों को संबोधित करने में बेंचमार्क कितना अच्छा है?
यह एक शुरुआत है। हमने पहले से ही अपने एलएलएम का उपयोग स्वचालित रूप से कुछ वाक्यांशों और वाक्य पूर्णताओं को बनाने के लिए किया है, जिसके माध्यम से हम रूढ़िवादिता का एक व्यापक सेट प्राप्त करने में सक्षम थे जिन्हें हमने स्थानीय संदर्भ में उजागर किया था।
इसके अलावा, हम अनुसंधान समुदाय के साथ भी जुड़ रहे हैं, और पूर्वाग्रह के अतिरिक्त स्रोतों को उजागर करने के लिए अपनी बातचीत का उपयोग कर रहे हैं। इनसे पूर्वाग्रह के अंतरसंबंधी मुद्दों के इर्द-गिर्द कई दिलचस्प विचार सामने आए हैं – उदाहरण के लिए, एक दलित महिला के मामले में, लिंग और जाति-आधारित पूर्वाग्रहों का संयोजन मॉडल के भीतर एक साथ आ सकता है, जिसे हम पहचानने और काम करने के लिए काम कर रहे हैं। अभी विकास करो.
Google द्वारा भारतीय भाषाओं का डेटा कैसे एकत्र किया जाता है?
पूरा प्रयास आईआईएससी द्वारा संचालित है, और हमने उनके साथ मिलकर सर्वोत्तम प्रथाओं को साझा करने के लिए काम किया है कि हमें डेटासेट कैसा होना चाहिए, ताकि एआई शोधकर्ताओं द्वारा इसका अच्छी तरह से उपयोग किया जा सके। बदले में, आईआईएससी के पास साझेदार हैं जो लोगों को विभिन्न जिलों तक पहुंचाकर अपने डेटा संग्रह प्रयासों को संचालित करते हैं।
वहां, ये भागीदार स्थानीय निवासियों को छवियों का एक सेट दिखाते हैं, और उनके स्थानीय बोली उत्तरों को रिकॉर्ड करते हैं।
डेटा के साथ-साथ गणना की कमी एक और बड़ी चुनौती है। क्या Google उन लोगों के लिए भी इसका उत्तर देगा जो जेनरेटिव AI प्रोजेक्ट्स पर काम करते हैं?
हाँ। कई मामलों में, हम शोधकर्ताओं को निःशुल्क Google क्लाउड क्रेडिट तक पहुंच प्रदान कर रहे हैं। यह उन्हें हमारे क्लाउड इंफ्रास्ट्रक्चर पर अपने स्वयं के एआई मॉडल चलाने की अनुमति देता है।
एआई मॉडल के निर्माण के लिए कंप्यूट एक महत्वपूर्ण प्रवर्तक है, और कई डेवलपर्स और शोधकर्ताओं के लिए इस तक पहुंच अक्सर कठिन होती है। हम इसे पहचानते हैं, और तदनुसार जहां भी संभव हो हम गणना क्षमताएं प्रदान कर रहे हैं।
Google रिसर्च इंडिया PaLM या यहां तक कि बार्ड के विकास में क्या योगदान देता है?
भारत में हमारी महत्वपूर्ण इंजीनियरिंग और अनुसंधान टीमें हैं। विशेष रूप से, हमारी अनुसंधान प्रयोगशाला Google के भीतर एलएलएम की बहुभाषी क्षमताओं को बढ़ाने में महत्वपूर्ण योगदान दे रही है। बेशक हमने भारतीय भाषाओं से शुरुआत की है, लेकिन हमारा बहुत सारा काम इस तरीके से किया गया है कि समान सिद्धांतों को दुनिया भर की अन्य अल्प-संसाधन भाषाओं में अधिक व्यापक रूप से लागू किया जा सके। इससे अन्य भाषाओं को भी पूर्वाग्रह और गलत सूचना से जुड़े पहलुओं को समझने में मदद मिल सकती है।
क्या जेनरेटिव एआई मॉडल के संस्करणों के लिए डिवाइस पर काम करना संभव है?
हमारा PaLM API क्लाउड पर चलता है। लेकिन, कुछ जनरेटिव एआई क्षमताएं हैं जो डिवाइस पर उपलब्ध हो रही हैं। वे ऑफ़लाइन होंगे, और अत्यधिक कम मॉडल होंगे जो स्थानीय कामकाज के लिए आसवित होंगे। वे क्लाउड पर चलने वाले मॉडलों जितने शक्तिशाली नहीं होंगे, लेकिन ऐसे मॉडल मौजूद हैं जो आज भी मौजूद हैं।
उदाहरण के लिए, PaLM API के कुछ संस्करण हैं जो आंतरिक रूप से उपलब्ध हैं, और डिवाइस पर काम करते हैं।
सभी को पकड़ो प्रौद्योगिकी समाचार और लाइव मिंट पर अपडेट। डाउनलोड करें मिंट न्यूज़ ऐप दैनिक प्राप्त करने के लिए बाज़ार अद्यतन & रहना व्यापार समाचार.
अद्यतन: 28 जून 2023, रात्रि 10:00 बजे IST