Skip Ribbon Commands
Skip to main content

Kumaran Interview

 


मुलाखत : श्री. अ. कुमारन, मायक‘ोसॅाफ्ट रीसर्च, इंडिया

यंत्राचे भाषांतर आणि भारतीय भाषा
 
वर्णन
आपल्यातील पुष्कळ जण मायक‘ोसॅाफ्टस अनुवादक किंवा गुगल भाषांतराचा वापर करतात. आपल्यातील काहि जण याहूज बेबलङ्गिश वापरतात. पुष्कळवेळा, भारतीय भाषांकरीता सुद्धा आपण अशा साधनांचा विचार करतो. देशामध्ये असलेल्या 22 भाषांची खूप मदत होते, ह्याबद्दल काहि शंकाच नाहि. तिथे असे लोक आहेत जे अगोदरच ह्यामध्ये आहेत आणि भारतीय भाषांकरीता यशस्वी मशिन ट्रान्सलेशन मॅाडेल करीता (एमटि) जोमदारपणे काम करतात. भाषाइंडिया खूप आनंदि आहे की त्यांनी भारतीय एमटि कार्यक्षेत्रामध्ये कल्पक लोकांचा परिचय करुन दिला. ते म्हणजे दुसरे कोणी नाहि तर मायक‘ोसॅाफ्ट रीसर्च इंडिया मधील ए कुमारन.

घटक
आपल्यातील पुष्कळ जण मायक‘ोसॅाफ्टस अनुवादक किंवा गुगल भाषांतराचा वापर करतात. आपल्यातील काहि जण
याहूज बेबलङ्गिश वापरतात. हि आपल्याकरीता हस्तकौशल्याची साधने आहेत जेव्हा आपल्याला प्रतिकूल भाषेतील घटक इंग‘जीमध्ये भाषांतर करण्याकरीता गरजेचे असतात. पुष्कळ वेळा आपण भारतीय भाषेकरीता सुद्धा अशा साधने असणे याचा विचार करतो. देशामध्ये असलेल्या 22 भाषांची खूप मदत होते, ह्याबद्दल काहि शंकाच नाहि. पण ते केव्हा घडेल?

निराश होवू नका! तिथे असे लोक आहेत जे अगोदरच ह्यामध्ये आहेत आणि भारतीय भाषांकरीता यशस्वी मशिन ट्रान्सलेशन मॅाडेल करीता (एमटि) जोमदारपणे काम करतात. भाषाइंडिया खूप आनंदि आहे की त्यांनी भारतीय एमटि कार्यक्षेत्रामध्ये कल्पक लोकांचा परिचय करुन दिला. ते म्हणजे दुसरे कोणी नाहि तर मायक‘ोसॅाफ्ट रीसर्च इंडिया मधील ए कुमारन.

ते सध्या बहुभाषिक संशोधन प्रणाली गटाचे नेतृत्व करतात. त्यांच्याकडे इंडियन इन्स्टिट्युट ऍाङ्ग सायन्स, बैंगलोर, इंडिया, याची पीएचडि, बॅचलर्स डिग‘ी ऍाङ्ग इंजिनियरिंग कॅालेज, चेन्नई, इंडिया आणि मास्टर डिग‘ी ऍाङ्ग रुटगर्स युनिव्हसिर्र्टि, न्यु जर्सी, युएसए अशा पदवी आहेत. इथे, ते त्यांचा भाषा गणन आणि कार्यक्षेत्रातील यंत्र भाषांतराचा प्रचंड अनुभव वाटून घेतात. येथे भाषाइंडीया संघा बरोबर अ कुमारनचा मुलाखतीचा भाग दिला आहे.

लोकांना बरीच शंका आहे जेव्हा कार्यक्षेत्रातील यंत्र भाषांतराची सुरवात (एमटी). आज , आपल्याला त्याचे परिणाम दिसतात. आपण मायक‘ोसाफ्ट भाषांतर,


गुग्गल ट्रान्सलेट अथवा याहू बेबलङ्गिशचा वापर करतो. एमटी आणि भाषा गणन क्षेत्रात ह्याचा अनुभवाचा हात आहे, काय तुम्ही क‘ुपया यंत्र भाषांतराचा इतिहास सांगाल का?
मागील 17 व्या शतकातील ‘यांत्रिकीकरण’ भाषांतराच्या प्रकि‘येविषयी कल्पना शोधणे हे शक्य आहे, परंतु ङ्गक्त 20 व्या शतकात वास्तविक आणि व्यावहारिक शक्यता अस्तित्वात आली. अगोदरच्या प्रणालीत प्राथमिक दृष्ट्या मोठ्या प्रमाणात द्विभाषिक शब्दकोशात स्त्रोत भाषेमध्ये शब्दांच्या नोंदणीकरीता जेथे लक्ष्य भाषेकरीता एक किंवा अधिक समांतर शब्द असतात आणि काही नियम हे योग्य शब्दाचा उत्पादनाकरीता क‘म देतात.
तिथे पुष्कळ असे सरकारी आणि खाजगी हेतू एमटि च्या विकासाकरीता होते ज्यामु़ळे त्यांना असे आढळले की एमटि ची मानवतेसाठी खूप मोठी मदत होईल. परंतु संशोधनाच्या मोठ्या कालावधीने त्यांना निराश केले. लवकरच 1960 मध्ये, त्यांना असे निरिक्षणास आले की ‘‘तिथे यंत्र भाषांतराची कोणतीहि उपयुक्त तात्कालिक किंवा वर्तविलेली अपेक्षा नाहि कारण ती मानवी भाषांतरापेक्षा खूप सावकाश, कमी अचूकता आणि दुप्पट महाग असते.’’ ह्याने एमटि प्रकि‘या सावकाश बनविली.


तथापि, संशोधन हे कॅनडा, ङ्ग‘ान्स आणि जर्मनी बरोबरच पुष्कळ देशांमध्ये लागू केले. 1970 मध्ये एक आधुनिक एमटि मध्ये पहिली मॅाडेल्स(सिस्ट्रन प्रणाली) अस्तित्वात आली.1980 मध्ये वेगवेगळ्या देशांमधून एमटि प्रणाली प्रकाराच्या एका विस्तृत विविधतेच्या पुराव्याचा उदय झाला. संगणक आणि टेक्स्ट प्रकि‘या सॅाफ्टवेअरची उपलब्धता ही महाग एमटि रचनेकरीता बाजारपेठ निर्माण करते. आपल्याला हा मुद्दा लक्षात घेण्याची गरज आहे की ह्यातील बहुतेक करुन मॅाडेल्स हे ‘रुल बेस्ड’ असतात.
अलीकडच्याच दिड दशकामध्ये, एमटि संशोधनामध्ये यजमानाचा एक नवीन दृष्टिकोनाचा परिचय करुन दिला आहे. ह्या दृष्टिकोनामध्ये, विशिष्ट कार्य आपोआपच शिकू शकतो जेव्हा योग्य ती हस्तलिखित प्रशिक्षण माहिती पुरविली जाते.ह्या पद्धतीत मोठ्या प्रमाणात सांि‘यकी शिक्षण किंवा यंत्र अल्गोरिदम शिकण्यासाठी देवू करते.
नवीन दृष्टिकोनामध्ये विशिष्ट विशेषता हि आहे कि कोणत्याहि वाक्यात्मक किंवा अर्थ नियमांच्या ग‘ंथांच्या विश्लेषणामध्ये शाब्दिक किंवा समान शब्द संग‘हाचा वापर केला जातो. मोठ्या निगम लेखाच्या विकासाच्या पद्धतीकरीता नवीन दृष्टिकोन हा अगोदरच्या ‘नियम आधारीत’ पद्धतीपेक्षा वेगळा असतो.

संगणक उपकृत भाषांतर(सीएटि) साधने सुद्धा एमटि कार्यक्षेत्राने केलेल्या प्रयोगांच्या आधारावर अस्तित्वात आली. हि प्रथा नंतर 1990 मध्ये चालू राहिली. उरलेला सर्व इतिहास जमा आहे. आता, ऍानलाईन उपभोक्ता यांनी एमटि ऍानलाईन सेवेच्या उपलब्धतेमुळे आनंद मिळविण्यास सुरुवात केली आहे. एक उदाहरण म्हणजे मायक‘ोसॅाफ्ट अनुवादक. व्यावसायिक अनुवादक यांनी आता त्यांची उत्पादक आणि अचूकता वाढविण्यासाठी कॅट साधने वापरण्यास सुरवात केली आहे.

कृपया तुम्ही  ‘नियमावर आधारीत’ दृष्टिकोन आणि ‘सांि‘यकी शिक्षण’ यांचा खोल प्रमाणात स्पष्टिकरण देवू शकाल का?

‘नियम आधारीत’ दृष्टिकोनामध्ये, जसे तुम्ही शा़ळेमध्ये शिकला आहात की वाक्याची व्याकरणाची रचना हि सॅाफ्टवेअर साठी इनपुट दस्तऐवजाच्या व्याकरणाच्या व्या‘या करण्यासाठी प्रत्येक वाक्याला व्याकरणिक मॅाडेल बनविण्याचा प्रयत्न केला आहे. इनपुट भाषेचे व्याकरणाची रचना हि नंतर उत्पादन होणार्या भाषेच्या व्याकरणाच्या रचनेशी जुळविली जाते.

‘सांि‘यकीय शिक्षणाच्या’ दृष्टिकोनामध्ये एमटि इंजिनचे प्रशिक्षण मोठ्या प्रमाणात उपलब्ध असलेली सामग‘ी आणि त्याच्या भाषांतराला ‘‘द्विभाषी लेख’’ निगम म्हणून ओळखल्या जाणार्यावर अवलंबून असते. एमटि इंजिन मोठ्या प्रमाणात माहितीचा वापर हा सांि‘यकीय पत्रव्यवहार तक्ता बनविण्यासाठी करतात. ह्या सांि‘यकीय माहिती वर आधारीत योग्य निवड करण्याचे संभावना दिलेली असते, विशिष्ट शब्द, म्हण, किंवा एका भाषेतील वाक्य, एक विशिष्ट शब्द, म्हण किंवा असे वाक्य की जे लक्ष्य भाषेतील अचूक भाषांतर असते.
कृपया लक्ष द्या की हि पद्धत भाषा विशिष्ट नाहि. हि कोणत्याहि भाषेवर लागू होईल. म्हणूनच मोठ्या प्रमाणात समांतर घटक असलेले इलेक्ट्रॅानिक लेख सामग‘ीला एमटि इंजिनमधून उत्तम गुणवत्तेच्या स्वरुपात बाहेर पडण्याची गरज असते.

आपण ऐकले किंवा वाचले असेल की भारतीय भाषा एमटि प्रणाली हि विविध कारखाने आणि सं़घटनेत विकसित होत आहेत. परंतु, आपण आत्तापर्यंत असे कोणतेहि यशाचे मॅाडेल बघितले नाहि. हे कधी होईल? आपल्याला युरोप भाषा किंवा अरेबिक मध्ये एमटि प्रणालीकडून ‘सर्व काहि ठिक आहे’ असे मिळविण्यासाठी किती थांबावे लागेल?

मी ह्यासाठी वेळेची भविष्यवाणी करु शकत नाहि. या क्षेत्रामध्ये संशोधने आयोजित केली जातात. तरिपण, मी सांगतो, आजपासून पाच वर्षे आपण उत्पादने पाहू शकतो. पुन्हा, हे सर्व आवश्यक निगमाच्या उपलब्धतेवर अवलंबून आहे. आपल्याला एक यशस्वी सांि‘यकिय एमटि प्रणाली प्राप्त करण्याकरीता मोठ्या प्रमाणात निगमाची आवश्यकता आहे. भारतीय भाषेमध्ये आपल्याकडे  पुरेसे डिजिटल घटक नाहि आहेत. जरी आपण नेट किंवा उपकरणातून डिजिटल माहितीचे एकत्रीकरण केले तरि हा संग‘ह आपली गरज पुर्ण करु शकत नाहि.
अजून एक मुद्दा म्हणजे आपल्या काहि भारतीय भाषेमध्ये प्रामु‘याने दक्षिण भाषा हि जास्त करुन वापरली जाणारी आहे. ह्या परिदृष्यामध्ये, निगम हे भाषा ज्या जास्त वापरल्या जात नाहित त्यापेक्षा उच्च बनले पाहिजे. वास्तविक पाहता, योग्य लेखाच्या संग‘हाचा अभाव हा भारतीय भाषांमधील पुष्कळ भाषांच्या गणनेच्या श्रमातील मोठा अडथळा आहे.

काय तुम्ही कृ पया भाषा गणनेतील निगमाची, प्रामु‘याने यंत्र भाषांतर क्षेत्रातील मु‘य भूमिका स्पष्ट कराल का?

येथे निगमाचे तीन मु‘य प्रकार आहेत. सर्वप्रथम मोनोलिंग्युअल निगम बद्दल बोलू. मोनोलिंग्युअल निगम हे वास्तविकरित्या उच्च स्त्रोतापासून, मोठ्या सामान्य लेखाच्या जसे की, लोकप्रिय मास मिडिया, वर्तमानपत्र, दूरचित्रवाणी इत्यादीच्या संदर्भासाठी वापरला जातो. एक विशाल मोनोलिंग्युअल संग‘ह हा पुष्कळ गणन भाषा विज्ञान कार्यासाठी अत्यंत उपयोगाचा होईल. उदाहरणार्थ, संग‘हाला दिलेले नाव(वैयक्तिक नाव, सामान्य नाव, ठिकाण, तारिख, संघटना, इत्यादी) चा वापर संस्थेचे नाव ओळखण्याचे कार्य आणि माहिती निष्कर्षण कार्यासाठी होईल.

त्यानंतर येथे बहुभाषिय निगम, बहुभाषिय निगमाचा संदर्भ पुष्कळ निगमाकरीता दिला जातो. समांतर, तुलनात्मक इत्यादी. समांतर निगम अनिवार्य स्वरुपात पुष्कळ भाषांमध्ये आहे, जेथे प्रत्येक सरळ वाक्यामध्ये एकच अर्थ सांगणारी पुष्कळ भाषा आहे. अशाप्रकारच्या निगमाचा वापर यंत्र भाषांतर प्रणालीच्या विकासाकरीता सहजपणे वापरतात. तुलनात्मक निगमाचा उ‘ेख पुष्कळ भाषांमध्ये सरळ वाक्यातील संग‘हात केला जातो, जेथे लेख हे सामान्यपणे एकाच विषयावर असतात, परंतु वेगवेगळे अर्थ सामग‘ी असणारे असतात. तुलनात्मक निगम यशस्वीपणे एमटि प्रणालीच्या विकासाकरीता कार्यरत केले आहे.

आता आपण ऍनोटेटेड निगम पाहू या. विशाल ऍनोटेटेड निगम हे कोणत्याहि गणन भाषा विज्ञान संशोधनाला गरजेचे आहे. ऍनोटेशन हे हस्तलिखित कार्यांवर अवलंबून असते; उदाहरणार्थ, पार्ट ऍाङ्ग स्पीच (पीओएस) ओळखण्याकरीता उत्तम ऍनोटेशनची गरज आहे, की जेथे पाठ संग़‘हातील प्रत्येक शब्द नमूद केलेला असतो, जेथे नेम्ड एनटिटि रिकग्निशन (एनईआर) संग़‘हामधील विशिष्ट संस्थांकरीता हस्तलिखितांची गरज असते.

काय हे भारतीय भाषेमध्ये एक विशाल निगम बनविण्याच्या दिशेने श्रम घेतले जात आहेत का? आपल्याला एक उत्तम एमटि प्रणाली बनविण्याकरीता विशाल निगम कधी मिळेल?

भारतामध्ये, भारतीय भाषेमध्ये केंन्द्रिय भारतीय भाषा संस्थानातील(सीआयआयएल) गोळा केलेले संग‘ह उपलब्ध आहेत. तरिसुद्धा हे संग‘ह तुलनेने लहान संग‘ह आहेत (अंदाजे  प्रतीभाषा 3-8 एम शब्द आहेत) मु‘यत: पुष्कळ भाषेतील मोनोलिंग्युअल लेखाचा संग‘ह हा टिपणीरहित आहे. जरी हे संग़‘ह माहिती संग‘हाकरीता बीज उपलब्ध करुन देते, अशाप्रकारच्या संग‘हाची सं‘या आणि गुणवत्तेमध्ये वृद्धि होण्याकरीता भारतीय भाषांमध्ये गणन भाषा विज्ञान संशोधनाची गरज आहे.

नुकतेच, सर्व भारतीय भाषेच्या भाषिक निगमाच्या मानकीकृत संग‘हाच्या देखरेखीकरीता मनुष्यबळ आणि विकास मंत्रालयाने भारतीय भाषेसाठी (एलडिसी-आयएल) ची सुरुवात केली आहे. पुष्कळ शैक्षणिक आणि औद्योगिक भागीदार हा संग‘ह बनविण्याकरीता एकत्र काम करत आहेत, चलातर अशी अपेक्षा करु या की भारतीय भाषांमध्ये गरज असलेल्या संग़‘हाची सं‘या प्राप्त होईल.

जर डिजिटल उपकरणात साठवलेली सामग‘ी किंवा नेटवरिल सामग‘ी हि विशाल निगम बनविण्याकरीता पुरेशी नसेल तर आपण आपले लक्ष्य कसे प्राप्त करु शकतो?

इथे, मी समुदायाच्या व्यापक भागीदाराबरोबर माहिती निर्माणावर भर देईल. हे महत्वाचे आहे की भाषा निगमाच्या निर्माणाकरीता क‘ाऊड-सोर्सिंग़ च्या पद्धतीच्या महत्वावर प्रकाश टाकला पाहिजे, जसे की पुष्कळ प्रकारचे निगम हे जरुरी नाहि की बहुभाषी किंवा भाषा विद्वानांकडून बनविले पाहिजेत, पण  ते सहजपणे स्थानिक भाषेच्या वक्त्यांकडून बनवले जातात.

भारतीय समुदाय एमटि ला कसे प्रभावशाली बनवणार आहेत?

काहि दशकांसाठी, गणन यंत्रणेने इंग‘जीला लोकांच्या उपयोगाकरीता बनविले आहे. पण दुर्भाग्यपुर्ण सत्य आहे की जगातील बहुसं‘य लोक इंग‘जी वापरत नाहित म्हणून ते गणनेच्या ङ्गायद्यांपासून वंचित आहेत. कृपया नेटवर उपलब्ध असलेली सामग‘ी पहा. मोठ्या प्रमाणात नेटवर उपलब्ध असलेली माहिती ही इंग़‘जी व्यतिरिक्त भाषांमध्ये असेल. जनसं‘येमध्ये अशा प्रकारचा बदल सुचवितो की तंत्रज्ञान मु‘यत: बहुभाषी उपयोग करणार्या लोकसं‘येचे समर्थन करण्याकरीता विकसित केले गेले पाहिजे, भाषा तटस्थ गणन भाषा विज्ञान संशोधनातील व्यापक आणि दर्शक गण, जलद अनुसंधणासाठी महत्वपुर्ण गरजांच्या दिशेने इशारा करतात. भारताचा संपुर्ण देशामध्ये आपण अतिरिक्त आव्हानांचा सामना करतो जेथे लोकसं‘या हि जास्त करुन इंग‘जी अशिक्षित 32, म्हणूनच उपकरण आणि स्थानिक भाषेतील तंत्रज्ञान अधिक महत्वाचे आहे. त्यामुळे सामान्य माणसाचा सहभाग हा डिजिटल विभागणीवर मात करतो.

कृपया तुम्ही मायक‘ोसॅाफ्ट संशोधन भारत बरोबरचा तुमचा अनुभव वाटाल का?

आम्ही मायक‘ोसॅाफ्ट मधील उत्तम संघ होतो. मी मायक‘ोसॅाफ्ट संशोधन भारत, जुलै 2005 मध्ये सहभागी झालो. मला भाषेच्या दिशेने गुढ प्रेम होते, विशेषकरुन भारतीय भाषेबद्दल. मायक‘ोसॅाफ्ट संशोधन भारत बरोबर, मला भारतीय भाषेची सेवा करण्याची महान संधी मिळाली.

सध्या मी समुदाय सहयोगी माहिती निर्माण योजनेमध्ये व्यस्त आहे -
विकीबेबल - हे चिन्हांकीत बहुभाषीय सामग‘ी आणि भाषाहि समांतर माहिती बनविते. ह्या योजनेचा उद्देश म्हणजे, भाषा उपभोक्ता समुदयाला एक सहज ज्ञान युक्त व्यासपीठ आणि सम्मोेहक  प्रयोग परिदृष्य प्रदान करणे. कोणत्याहि दिलेल्या विकी साईट की जो समांतर माहितीकरीता बंधनकारक असू शकेल, सांि‘यकीय यंत्र भाषा प्रणाली संशोधनासाठी बहुभाषीय सामग‘ी बनविली आहे.

माझ्या संशोधनाच्या आवडिमध्ये क‘ॅास बहुभाषीय माहितीचा उपयोग/ निष्कर्षण, यंत्र भाषांतर, लिपिकरण आणि भाषायी संशोधनाकरीता माहिती बनविण्याची पद्धत, निगमातील समाचार खोदून काढणे, समुदायी सहयोगी चौकट आणि बहुभाषी खेळांचा समावेश आहे.

शेवटि, तुम्ही भाषा इंडियाची भारतीय भाषेतील गणनेची सुरुवात कशी बघताल?

भाषाइंडिया हे कोणत्याहि भारत भाषा गणनेकरीता एक असाहि संदर्भ द्वार आहे. आपण, वाचक अधिक पुष्कळ समृद्ध सामग‘ी आणि भाषाइंडिया मध्ये जिवंत व्यासपीठाची अपेक्षा करतात. मी भाषाइंडिया पोर्टलला शुभेच्छा देतो आणि ते एक भारतीय भाषा गणनेच्या व्यासपीठाची सुरुवात आहे.

This site uses Unicode and Open Type fonts for Indic Languages. Powered by Microsoft SharePoint
©2017 Microsoft Corporation. All rights reserved.