Skip Ribbon Commands
Skip to main content

ਇੰਟਰਵਿਊ: ਸ਼੍ਰੀ ਏ. ਕੁਮਾਰਨ, ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਰਿਸਰਚ, ਇੰਡੀਆ
ਮਸ਼ੀਨੀ ਅਨੁਵਾਦ ਅਤੇ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ
 

ਵੇਰਵਾ


ਸਾਡੇ ਵਿਚਕਾਰ ਬਹੁਤੇਰੀਆਂ ਲੋਕਾਂ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਜਾਂ ਗੂਗਲ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਸਾਨੂੰ ਵਿਚਕਾਰ ਬਹੁਤੇਰੇ ਯਾਹੂ ਬੇਬਲਫ਼ਿਸ਼ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਅਸੀਂ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਲਈ ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਟੂਲ ਬਾਰੇ ਕਈ ਬਾਰ ਸੋਜਦੇ ਹਨ। ਨਿਸੰਦੇਹ ਇਸ ਗੱਲ ਵਿਚ ਕੋਈ ਸ਼ੱਕ ਨਹੀਂ ਹੈ ਕਿ ਇਹ ਕਿਸੇ ਦੇਸ਼ ਲਈ ਮਹੱਤਵਪੂਰਨ ਮਦਦ ਹੋਵੇਗੀ ਜਿਸ ਵਿਚ 22 ਤੋਂ ਵੱਧ ਭਾਸ਼ਾਵਾਂ ਹਨ। ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਵੀ ਕੁਝ ਲੋਕ ਹਨ ਜੋ ਭਾਰਤੀਏ ਭਾਸ਼ਾਵਾਂ ਲਈ ਸਫਲ ਮਸ਼ੀਨ ਅਨੁਵਾਦ (MT) ਮਾਡਲ ਲਈ ਪਹਿਲਾਂ ਤੋ ਹੀ ਉਤਸਾਹਪੂਰਵਕ ਕੱਮ ਕਰ ਰਿਹੇ ਹਨ। ਭਾਸ਼ਾਇੰਡੀਆ ਨੂੰ ਭਾਰਤੀ ਐਮਟੀ ਡੋਮੇਨ ਵਿਚ ਸਾਧਨ ਸੰਪਨ ਵਿਅਕਤੀ ਦੀ ਜਾਣਕਾਰੀ ਦਿੰਦੇ ਹੋਏ ਖ਼ੁਸ਼ੀ ਹੋ ਰਹੀ ਹੈ। ਉਹ ਹਨ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਰਿਸਰਚ ਇੰਡੀਆ ਦੇ ਏ ਕੁਮਾਰਨ।

ਸਮੱਗਰੀ


ਸਾਨੂੰ ਵਿਚਕਾਰ ਬਹੁਤੇਰੀਆਂ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਜਾਂ ਗੂਗਲ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਸਾਨੂੰ ਵਿਚਕਾਰ ਬਹੁਤੇਰੇ ਯਾਹੂ ਬੇਬਲਫ਼ਿਸ਼ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਗ਼ੈਰਮੁਲਕੀ ਭਾਸ਼ਾ ਨੂੰ ਅੰਗ੍ਰੇਜ਼ੀ ਵਿਚ ਅਨੁਵਾਦ ਕਰਨ ਦੇ ਬਹੁਤੇਰੇ ਟੂਲ ਉਪਲਬਧ ਹਨ। ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਟੂਲ ਅਸੀਂ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਲਈ ਵੀ ਪ੍ਰਾਪਤ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਨ। ਨਿਸੰਦੇਹ ਇਹ ਵਿਚ ਕੋਈ ਸ਼ੱਕ ਨਹੀਂ ਹੈ ਕਿ ਇਹ ਕਿਸੇ ਦੇਸ਼ ਲਈ ਮਹੱਤਵਪੂਰਨ

ਮਦਦ ਹੋਵੇਗੀ ਜਿਸ ਵਿਚ 22 ਤੋਂ ਵੱਧ ਭਾਸ਼ਾਵਾਂ ਹਨ।  ਅਤੇ ਇਹ ਕਦੋਂ ਮੁਮਕਿਨ ਹੋਵੇਗਾ?

 

ਨਿਰਾਸ਼ ਨਾ ਹੋਵੋ! ਇਸ ਖੇਤਰ ਵਿਚ ਬਹੁਤੇਰੇ ਲੋਕ ਪਹੁਲਾਂ ਤੋਂ ਹੀ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਲਈ ਉਤਸਾਹਪੂਰਵਕ ਮਸ਼ੀਨ ਅਨੁਵਾਦ (MT) ਲਈ ਕੱਮ ਕਰ ਰਿਹੇ ਹਨ। ਭਾਸ਼ਾਇੰਡੀਆ ਨੂੰ ਭਾਰਤੀ ਐਮਟੀ ਡੋਮੇਨ ਵਿਚ ਸਾਧਨ ਸੰਪਨ ਵਿਅਕਤੀ ਦੀ ਜਾਣਕਾਰੀ ਦਿੰਦੇ ਹੋਏ ਖ਼ੁਸ਼ੀ ਹੋ ਰਹੀ ਹੈ। ਉਹ ਹਨ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਰਿਸਰਚ ਇੰਡੀਆ ਦੇ ਏ ਕੁਮਾਰਨ।

 

ਉਹ ਹੁਣ ਮਲਟੀਲਿੰਗੁਅਲ ਸਿਸਟਮਜ਼ ਰਿਸਰਚ ਗਰੁੱਪ ਦੇ ਆਗੂ ਹਨ। ਉਹ ਇੰਡੀਅਨ ਇੰਸਟੀਟਿਉਟ ਆਫ ਸਾਇੰਸੇਜ਼, ਬੰਗਲੌਰ, ਭਾਰਤ ਤੋਂ ਪੀਐਚਡੀ, ਕਾਲਜ ਆਫ ਇੰਜੀਨਿਅਰਿੰਗ ਚੇਨਈ, ਭਾਰਤ ਤੋਂ ਬੈਚਲਰ ਡਿਗ੍ਰੀ ਅਤੇ ਰਟਗਿਅਰਜ਼ ਯੂਨਿਵਰਸਿਟੀ, ਨਿਉ ਜ਼ਰਸੀ, ਅਮਰੀਕਾ ਤੋਂ ਮਾਸਟਰ ਡਿਗ੍ਰੀ ਕੀਤੀ ਹੈ। ਇੱਥੇ ਉਹ ਭਾਸ਼ਾ ਕੰਪਿਉਟਿੰਗ ਅਤੇ ਮਸ਼ੀਨ ਅਨੁਵਾਦ ਡੋਮੇਨ ਵਿਚ ਆਪਣੇ ਖ਼ਾਸ ਤਜ਼ਰਬੇ ਨੂੰ ਵੰਡ ਰਿਹੇ ਹਨ। ਇੱਥੇ ਭਾਸ਼ਾਇੰਡੀਆ ਟੀਮ ਦਾ ਏ ਕੁਮਾਰਨ ਨਾਲ ਇੰਟਰਵਿਉ ਦੇ ਮੁੱਖ ਅੰਸ਼ ਦਿੱਤਾ ਗਿਆ ਹੈ।

 

ਮਸ਼ੀਨ ਅਨੁਵਾਦ (MT) ਡੋਮੇਨ ਵਿਚ ਸੋਧ ਅਧਿਐਨਾਂ ਦੀ ਸ਼ੁਰੂਆਤ ਕਰਦੇ ਸਮਾਂ ਲੋਕ ਬਹੁਤ ਗ਼ੈਰ ਯਕੀਨੀ ਸੀ। ਅੱਜ, ਅਸੀਂ ਇਹ ਦੇ ਸਿੱਟੇ ਦੇਖ ਰਹੇ ਹਨ। ਅਸੀਂ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਦੇ ਅਨੁਵਾਦ, ਗੁਗਲ ਅਨੁਵਾਦ ਜਾਂ ਯਾਹੂ ਬੇਬਲਫ਼ਿਸ਼ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਐਮਟੀ ਅਤੇ ਭਾਸ਼ਾ ਕੰਪਿਉਟਿੰਗ ਡੋਮੇਨਾਂ ਵਿਚ ਤਜ਼ਰਬਾ ਹੋਣੇ ਦੇ ਬਾਵਜੂਦ ਕੀ ਤੁਸੀਂ ਮਸ਼ੀਨੀ ਅਨੁਵਾਦ ਦੇ ਸੰਖੇਪ ਇਤਿਹਾਸ ਬਾਰੇ ਦੱਸ ਸਕਦੇ ਹੋ?

 

ਸਤਾਰ੍ਹਵਾਂ ਸਦੀ ਤੋਂ ਪਹਿਲਾਂ ‘ਮਸ਼ੀਨੀ’ ਅਨੁਵਾਦ ਬਾਰੇ ਖ਼ਿਆਲਾਤ ਲੱਭਣਾ ਮੁਮਕਿਨ ਹੈ, ਐਪਰ ਅਸਲ ਅਤੇ ਵਿਹਾਰਕ ਸੰਭਾਵਨਾਵਾਂ ਨੂੰ 20ਵੀਂ ਸਦੀ ਵਿਚ ਹੀ ਆਈ ਸੀ। ਮੁਢਲੀਆਂ ਸਿਸਟਮਾਂ ਵੱਡੀਆਂ ਦੁਭਾਸ਼ੀਆ ਸ਼ਬਦ-ਕੋਸ਼ ਹਨ ਜਿੱਥੇ ਸਰੋਤ ਭਾਸ਼ਾ ਦੇ ਸ਼ਬਦਾਂ ਦੀ ਰਸਾਈ ਲਈ ਟੀਚਾ ਭਾਸ਼ਾ ਵਿਚ ਦੋ ਜਾਂ ਵੱਧ ਸਮਾਨ ਸ਼ਬਦ ਦਿੱਤੇ ਅਤੇ ਇਨਪੁਟ ਦੇ ਸਹੀ ਕ੍ਰਮ ਲਈ ਕੁਝ ਨਿਯਮ ਦਿੱਤੇ ਹਨ।

 

ਐਮਟੀ ਦੇ ਵਿਕਾਸ ਲਈ ਸਰਕਾਰ ਤੋਂ ਨਿਜੀ ਸੰਸਥਾਵਾਂ ਤਕ ਬਹੁਤੇਰੇ ਪ੍ਰਾਯੋਜਕ ਸਨ ਕਿਉਂਕਿ ਉਨ੍ਹਾਂ ਨੇ ਪਾਇਆ ਕਿ ਐਮਟੀ ਇਨਸਾਨੀਅਤ ਲਈ ਜ਼ਬਰਦਸਤ ਮਦਦ ਹੋਵੇਗੀ। ਮਗਰ ਵਰ੍ਹੇ ਦੀ ਸੋਧਾਂ ਨੇ ਉਨ੍ਹਾਂ ਨੂੰ ਨਿਰਾਸ਼ ਕੀਤਾ। 1960ਵੀਂ ਸਦੀ ਦੀ ਸ਼ੁਰੂਆਤ ਵਿਚ, ਉਨ੍ਹਾਂ ਨੇ ਦੇਖਾ ਕਿ "ਲਾਭਦਾਇਕ ਮਸ਼ੀਨੀ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਕੋਈ ਤਤਕਾਲੀਨ ਜਾਂ ਭਵਿੱਖ ਦੀ ਸੰਭਾਵਨਾ ਨਹੀਂ ਹੈ ਕਿਉਂਕਿ ਇਹ ਹੌਲੀ, ਘੱਟ ਦਰੁਸਤ ਅਤੇ ਇਨਸਾਨੀ ਅਨੁਵਾਦ ਦੇ ਮੁਕਾਬਲੇ ਦੋਗੁਨਾ ਖਰਚੀਲੀ ਸੀ।" ਇਸ ਨੇ ਐਮਟੀ ਤਰੱਕੀ ਨੂੰ ਧੀਮਾ ਕਰ ਦਿੱਤਾ।

 

ਅਲਬੱਤਾ, ਕਨਾਡਾ, ਫਰਾਂਸ਼ ਅਤੇ ਜ਼ਰਮਨੀ ਵਿਚ ਸ਼ੋਧ ਜ਼ਾਰੀ ਰਹੀ। 1970 ਦੇ ਦਸ਼ਕ ਵਿਚ ਆਧੁਨਿਕ ਐਮਟੀ ਦਾ ਪਹਿਲਾ ਮਾਡਲ (ਸਿਸਟ੍ਰਾਨਸ ਸਿਸਟਮ) ਵਜ਼ੂਦ ਵਿਚ ਆਇਆ। 1980ਵੀਂ ਸਦੀ ਐਮਟੀ ਸਿਸਟਮ ਕਿਸਮਆਂ ਅਤੇ ਵਿਭਿੰਨ ਦੇਸ਼ਾਂ ਦੇ ਵੱਖਰੀ ਪ੍ਰਕਾਰਾਂ ਦੇ ਵਿਕਾਸ ਦੀ ਗਵਾਹ ਹੈ। ਕੰਪਿਉਟਰਜ਼ ਦੀ ਉਪਲਬਧਤਾ ਅਤੇ ਪਾਠ ਪ੍ਰਕਿਰਿਆ ਸਾਫਟਵੇਅਰ ਨੇ ਸਸਤੇ ਐਮਟੀ ਸਿਸਟਮਾਂ ਲਈ ਇਕ ਬਾਜ਼ਾਰ ਬਣਾ ਦਿੱਤਾ। ਸਾਨੂੰ ਇਹ ਧਿਆਨ ਦੇਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਵਿਚੋਂ ਬਹੁਤੇਰੀਆਂ 'ਨਿਯਮ ਆਧਾਰਿਤ' ਮਾਡਲ ਸਨ।

 

ਹਾਲੀਆ ਡੇਢ ਦਸ਼ਕ ਵਿਚ, ਐਮਟੀ ਸ਼ੋਧਾਂ ਵਿਚ ਨਵੀਆਂ ਢੁੱਕਣਾ ਲਾਗੂ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ। ਇਨ੍ਹਾਂ ਢੁੱਕਣਾ ਵਿਚ ਖ਼ਾਸ ਕੰਮ ਸਵੈ-ਚਾਲਿਤ ਰੂਪ ਨਾਲ ਸਿੱਖੇ ਜਾ ਸਕਦੇ ਹਨ ਜਦੋਂ ਢੁਕਵਾਂ ਦਸਤਕਾਰੀ ਸਿੱਖਿਆ ਅੰਕਡ਼ੇ ਦਿੱਤੇ ਜਾਂਦੇ ਹਨ। ਇਨ੍ਹਾਂ ਕਾਰਜ-ਪ੍ਰਣਾਲੀਆਂ ਸਾਂਖਿਅਕੀ ਸਿੱਖਿਆ ਜਾਂ ਮਸ਼ੀਨ ਸਿੱਖਿਆ ਐਲਗੋਰਿਥਮ ਦੇ ਰੂਪ ਨਾਲ ਖ਼ਾਸ ਤੌਰ ਤੇ ਜਾਣਕਾਰੀ ਦਿੱਤੀ ਗਈ ਹੈ।

 

ਨਵੀਆਂ ਢੁੱਕਣਾਂ ਵਿਚਕਾਰ ਵਿਲੱਖਣ ਸੁਵਿਧਾ ਇਹ ਸੀ ਕਿ ਇਨ੍ਹਾਂ ਦੇ ਵਿਚ ਕੋਈ ਵਾਕ ਰਚਨਾ ਜਾਂ ਅਰਥ ਵਿਗਿਆਨ ਸੰਬੰਧੀ ਨਿਯਮਾਂ ਦੀ ਵਰਤੋਂ ਪਾਠਾਂ ਦੀ ਵਸ਼ਲੇਸ਼ਣ ਜਾਂ ਸਮਾਨ ਕੋਸ਼ਾਂ ਵਿਚ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਜੋ ਵੱਡੇ ਪਾਠ ਹਿੱਸੇ ਦੇ ਦੁਰਉਪਯੋਗ ਵਿਚ ਪਹਿਲਾਂ ‘ਨਿਯਮ-ਆਧਾਰਿਤ’ ਤਰੀਕੀਆਂ ਤੋਂ ਵੱਖਰੇ ਹਨ।

 

ਐਮਟੀ ਡੋਮੇਨ ਵਿਚ ਪ੍ਰਯੋਗ ਦੇ ਅਧਾਰ ਤੇ ਕੰਪਿਉਟਰ ਏਡਿਡ ਟ੍ਰਾਂਸਲੇਸ਼ਨ (CAT) ਟੂਲ ਵੀ ਅਸਤਿਤਵ ਵਿਚ ਆਏ ਸੀ। ਇਹ ਝੁਕਾਅ ਜਾਰੀ ਰਿਹੇ ਹਨ। ਬਾਕੀ ਇਤਿਹਾਸ ਹੈ। ਹੁਣ, ਆਨਲਾਈਨ ਇਸਤੇਮਾਲ ਕਰਤਾ ਆਨਲਾਈਨ ਨੈੱਟਵਰਕ ਵਾਲੀ ਸੇਵਾਵਾਂ ਤੋਂ ਐਮਟੀ ਦੀ ਉਪਲਬਧਤਾ ਦਾ ਮਜ਼ਾ ਲੈਣ ਦੀ ਸ਼ੁਰੂਆਤ ਕੀਤੀ। ਇਹ ਦਾ ਇਕ ਉਦਾਹਰਣ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਹੈ। ਪੇਸ਼ੇਵਰ ਅਨੁਵਾਦਕ ਆਪਣੀ ਉਤਪਾਦਕਤਾ ਅਤੇ ਦਰੁਸਤੀ ਨੂੰ ਵਧਾਉਣ ਲਈ CAT ਦੀ ਵਰਤੋਂ ਦੀ ਸ਼ੁਰੂਆਤ ਕੀਤੀ ਹੈ।

 

ਕੀ ਤੁਸੀਂ ‘ਨਿਯਮ ਆਧਾਰਿਤ’ ਢੁੱਕਣਾ ਅਤੇ ‘ਸਾਂਖਿਕੀ ਗਿਆਨ’ ਬਾਰੇ ਕੁਝ ਹੋਰ ਵਿਆਖਿਆ ਕਰ ਸਕਦੇ ਹੋ?

 

‘ਨਿਯਮ ਅਆਧਾਰਿਤ’ ਪਹੁੰਚ ਵਿਚ, ਤੁਸੀਂ ਸਕੂਲ ਵਿਚ ਵਾਕ ਦੀ ਵਿਆਕਰਨ ਸੰਰਚਨਾ ਖ਼ਾਕਾ ਬਣਾਉਣਾ ਸੀਖਾ ਹੋਵੇਗਾ, ਤਾਂ ਸਾਫਟਵੇਅਰ ਹਰੇਕ ਵਾਕ ਦੇ ਵਿਆਕਰਨ ਰੂਪ ਬਣਾਉਣ ਲਈ ਇਨਪੁਟ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਵਿਆਖਿਆ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ। ਇਨਪੁਟ ਭਾਸ਼ਾ ਦਾ ਵਿਆਕਰਨ ਸੰਬੰਧੀ ਰੂਪ ਦਾ ਤਦ ਆਉਟਪੁਟ ਭਾਸ਼ਾ ਲਈ ਮੈਪ ਬਣਾਇਆ ਜਾਂਦਾ ਹੈ।

 

‘ਸਾਂਖਿਕੀ ਗਿਆਨ’ ਪਹੁੰਚ ਵਿਚ, ਐਮਟੀ ਇੰਜਨ ਨੂੰ ਮੌਜੂਦਾ ਸਮੱਗਰੀ ਦੀ ਵੱਡੀ ਮਾਤਰਾ ਅਤੇ ਇਹ ਦੇ ਅਧਾਰ ਤੇ ਪ੍ਰਸਿੱਖਿਅਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਜਿਸ ਨੂੰ “ਦੁਭਾਸ਼ੀ ਪਾਠ ਸੰਗ੍ਰਹਿ” ਨਾਮ ਰਾਹੀਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ। ਐਮਟੀ ਇੰਜ਼ਨ ਸਮੱਗਰੀ ਦੀ ਵੱਡੀ ਮਾਤਰਾ ਦੀ ਵਰਤੋਂ ਸਾਂਖਿਕੀ ਸੁਮੇਲ ਸਾਰਣੀ ਬਣਾਉਣ ਲਈ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਸਾਂਖਿਕੀ ਜਾਣਕਾਰੀ ਇਹ ਨਿਸ਼ਚਿਤ ਕਰਦੀ ਹੈ ਕਿ ਸੰਭਾਵਿਤ ਯੋਗਤਾ ਤੇ ਆਧਾਰਿਤ ਢੁੱਕਵਾਂ ਚੋਣ ਜੋ ਇਕ ਭਾਸ਼ਾ ਵਿਚ ਸ਼ਬਦ, ਵਾਕਾਂਸ਼ ਜਾਂ ਵਾਕ ਦਿੰਦਾ ਹੈ ਜੋ ਟੀਚਾ ਭਾਸ਼ਾ ਵਿਚ ਉਹ ਸ਼ਬਦ, ਵਾਕਾਂਸ਼ ਜਾਂ ਵਾਕ ਦਾ ਸਹੀ ਅਨੁਵਾਦ ਹੈ।

 

ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਉ ਕਿ ਇਹ ਤਰੀਕਾ ਭਾਸ਼ਾ ਵਿਸ਼ੇਸ਼ ਨਹੀਂ ਹੈ। ਹਾਲਾਂਕਿ, ਸਮਾਨ ਸਮੱਗਰੀ ਵਾਲੇ ਇਲੈਕਟ੍ਰਾਨਿਕ ਪਾਠ ਦੀ ਵੱਡੀ ਮਾਤਰਾ ਐਮਟੀ ਇੰਜ਼ਨ ਤੋਂ ਬਿਹਤਰੀਨ ਗੁਣਵੱਤਾ ਆਉਟਪੁਟ ਲਈ ਜ਼ਰੂਰੀ ਹੈ।

 

ਸਾਨੂੰ ਸੁਣਿਆ ਅਤੇ ਪਡ਼ਿਆ ਹੋਵੇਗਾ ਕਿ ਭਾਰਤੀ ਭਾਸ਼ਾ ਐਮਟੀ ਸਮਾਧਾਨ ਵੱਖਰੀਆਂ ਕੰਪਨੀਆਂ ਅਤੇ ਸੰਗਠਨਾਂ ਵਿਚ ਤਿਆਰ ਕੀਤੇ ਜਾ ਰਿਹੇ ਹਨ। ਐਪਰ, ਅਸੀਂ ਹੁਣੇ ਤਕ ਕੋਈ ਸਫਲ ਮਾਡਲ ਨਹੀਂ ਦੇਖਿਆ ਹੈ। ਇਹ ਕਦੋਂ ਹੋਵੇਗਾ? ‘ਕੁਝ ਠੀਕ’ ਐਮਟੀ ਸਮਾਧਾਨ ਜਿਵੇਂ ਯੂਰੋਪੀ ਭਾਸ਼ਾਵਾਂ ਜਾਂ ਅਰਬੀ ਭਾਸ਼ਾ ਪ੍ਰਾਪ੍ਤ ਕਰਨ ਲਈ ਕਿੰਨ੍ਹੀ ਦੇਰ ਉਡੀਕਨਾ ਹੈ?

 

ਮੈਂ ਇਹ ਦੀ ਕੋਈ ਸਮਾਂ ਸੀਮਾਂ ਬਾਰੇ ਨਹੀਂ ਦੱਸ ਸਕਦਾ ਹਾਂ। ਸ਼ੋਧਕਰਤਾ ਇਸ ਖੇਤਰ ਵਿਚ ਕੰਮ ਕਰ ਰਿਹੇ ਹਨ। ਹੁਣੇ ਤਕ, ਮੈਂ ਦੱਸ ਸਕਦਾ ਹਾਂ ਕਿ ਅੱਜ ਤੋਂ ਪੰਜ ਸਾਲ ਬਾਅਦ ਅਸੀਂ ਆਉਟਪੁਟ ਦੇਖ ਸਕਦੇ ਹਨ। ਫਿਰ ਵੀ ਇਹ ਜ਼ਰੂਰੀ ਸੰਗ੍ਰਹਿ ਦੀ ਉਪਲਬਧਦਾ ਤੇ ਆਧਾਰਿਤ ਹੈ। ਸਾਨੂੰ ਸਫਲ ਸਾਂਖਿਕੀ ਐਮਟੀ ਹਲ ਵਿਕਸਿਤ ਕਰਨ ਲਈ ਵੱਡੇ ਸੰਗ੍ਰਹਿ ਦੀ ਲੋਡ਼ ਹੈ। ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿਚ, ਸਾਡੇ ਕੋਲ ਵੱਧ ਡੀਜੀਟਲ ਸਮੱਗਰੀ ਨਹੀਂ ਹੈ। ਭਲੇ ਹੀ ਅਸੀਂ ਨੇਟ ਤੇ ਉਪਲਬਧ ਡਿਜੀਟਲ ਜਾਂ ਡਿਵਾਇਸ ਡਾਟਾ ਤੇ ਇਕੱਠ ਕਰਦੇ ਹਨ ਕਾਫੀ ਲੋਡ਼ ਨਹੀਂ ਹੋਵੇਗੀ।

 

ਇਹ ਵਿਚ ਇਕ ਬਿੰਦੂ ਇਹ ਹੈ ਕਿ ਸਾਡੀ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ, ਖ਼ਾਸ ਤੌਰ ਤੇ ਦੱਖਣੀ ਭਾਸ਼ਾਵਾਂ ਵੱਧੇਰੀ ਨਿਹਾਇਤ ਪਰਸਪਰ ਹਨ। ਇਹ ਦ੍ਰਿਸ਼ ਵਿਚ, ਸੰਗ੍ਰਹਿ ਨੂੰ ਭਾਸ਼ਾਵਾਂ ਤੋ ਵੱਡਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਪਰਸਪਰ ਨਹੀਂ ਹਨ। ਅਸਲ ਵਿਚ, ਢੁੱਕਵਾਂ ਸੰਗ੍ਰਹਿ ਦੀ ਕਮੀ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਦੇ ਬਧੇਰੇ ਭਾਸ਼ਾ ਕੰਪਿਉਟੇਸ਼ਨਲ ਪ੍ਰਯਾਸ਼ਾਂ ਵਿਚ ਰੂਕਾਵਟ ਹੈ।

 

ਕੀ ਤੁਸੀਂ ਕੰਪਿਉਟਰ ਭਾਸ਼ਾ ਵਿਚ ਸੰਗ੍ਰਹਿ ਦੀ ਭੂਮਿਕਾ ਦੀ ਵਿਆਖਿਆ ਕਰ ਸਕਦੇ ਹੋ, ਖ਼ਾਸ ਤੌਰ ਤੇ ਮਸ਼ੀਨ ਅਨੁਵਾਦ ਡੋਮੇਨ ਵਿਚ?

 

ਸੰਗ੍ਰਹਿ ਤਿੰਨ ਪ੍ਰਕਾਰ ਦੇ ਹਨ। ਪਹਿਲਾਂ ਅਸੀ ਮੋਨੋਲਿੰਗੁਅਲ ਸੰਗ੍ਰਹਿ ਬਾਰੇ ਗੱਲਬਾਤ ਕਰਨਗੇ। ਮੋਨੋਲਿੰਗੁਅਲ ਸੰਗ੍ਰਹਿ ਲਾਜ਼ਮੀ ਤੌਰ ਤੇ ਕਿਸੇ ਮਾਨ ਸਰੋਤ ਤੋਂ ਸਧਾਰਨ ਪਾਠ ਫੈਲਾਉ ਦਾ ਹਵਾਲਾ ਦਿੰਦਾ ਹੈ ਜਿਵੇਂ ਲੋਕਪ੍ਰਿਯ ਮਾਸ ਮੀਡੀਆ, ਅਖ਼ਬਾਰ, ਟੇਲੀਵਿਜਨ ਆਦਿ। ਮੋਨੋਲਿੰਗੁਅਲ ਸੰਗ੍ਰਹਿ ਦਾ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਬਥੇਰੇ ਕੰਪਿਉਟੇਸ਼ਨਲ ਲਿੰਗੁਇਸਟਕ ਕੰਮਾਂ ਵਿਚ ਨਿਹਾਇਤ ਲਾਭਦਾਇਕ ਹੋਵੇਗਾ। ਉਦਾਹਰਣ ਲਈ, ਇਨ੍ਹਾਂ ਨਾਮ ਨਾਲ ਵਿਆਖਿਆ ਕਰਨ ਵਾਲਾ ਸੰਗ੍ਰਹਿ (ਜਾਤੀ ਨਾਮ, ਆਮ ਨਾਮ, ਸਥਾਨ, ਮਿਤੀ, ਸੰਗਠਨ ਆਦਿ), ਨੂੰ ਕਈ ਨਾਮਿਤ ਸੰਸਥਾ ਪਛਾਣ ਕੰਮ ਅਤੇ ਜਾਣਕਾਰੀ ਸਿੱਟਾ ਕੰਮਾ ਲਈ ਵਰਤਾ ਜਾ ਸਕਦਾ ਹੈ।

 

ਇਹ ਦੇ ਬਾਅਦ ਆਂਦਾ ਹੈ ਮਲਟੀਲਿੰਗੁਅਲ ਸੰਗ੍ਰਹਿ। ਮਲਟੀਲਿੰਗੁਅਲ ਸੰਗ੍ਰਹਿ ਬਥੇਰੇ ਸੰਗ੍ਰਹਿ ਦਾ ਹਵਾਲਾ ਦਿੰਦਾ ਹੈ ਜਿਵੇਂ ਸਦ੍ਰਿਸ਼, ਤੁਲਨਾਤਮਕ ਆਦਿ। ਸਦ੍ਰਿਸ਼ ਸੰਗ੍ਰਹਿ ਖ਼ਾਸਤੌਰ ਤੇ ਵਿਭਿੰਨ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਵਾਕ ਬੰਨ੍ਹਣ ਦਾ ਸੰਗ੍ਰਹਿ ਕਰਦਾ ਹੈ, ਜਿੱਥੇ ਹਰੇਕ ਬਨ੍ਹਣ ਵਾਲਾ ਵਾਕ ਦਾ ਜੋਡ਼ਾ ਬਹੁ ਭਾਸ਼ਾਵਾ ਵਿਚ ਸਮਾਨ ਅਰਥ ਸੰਬੰਧੀ ਜਾਣਕਾਰੀ ਰੱਖਦਾ ਹੈ। ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਸੰਗ੍ਰਹਿ ਦੀ ਵਰਤੋਂ ਮਸ਼ੀਨ ਅਨੁਵਾਦ ਸਿਸਟਮ ਵਿਕਸਿਤ ਕਰਨ ਲਈ ਛੇਤੀ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਤੁਲਨਾਤਮਕ ਸੰਗ੍ਰਹਿ ਨੂੰ ਵਿਭਿੰਨ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਲੇਖ ਬੰਨ੍ਹਣ ਦੇ ਰੂਪ ਵਿਚ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਜਿੱਥੇ ਲੇਖ ਸਮਾਨ ਵਿਸ਼ਾ ਤੇ ਹੁੰਦਾ ਹੈ ਐਪਰ ਵੱਖਰੇ ਅਰਥ ਸੰਬੰਧੀ ਸਮੱਗਰੀ ਹੋ ਸਕਦੀ ਹੈ। ਤੁਲਨਾਤਮਕ ਸੰਗ੍ਰਹਿ ਨੂੰ ਐਮਟੀ ਸਿਸਟਮਾਂ ਦੇ ਵਿਕਾਸ ਵਿਚ ਸਫਲਤਾਪੂਰਵਕ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਸੀ।

 

ਹੁਣ ਅਸੀਂ ਵਿਆਖਿਆ ਸੰਗ੍ਰਹਿ ਨੂੰ ਦੇਖਣਾ ਹੈ। ਵੱਡੇ ਵਿਆਖਿਆ ਸੰਗ੍ਰਹਿ ਦੀ ਲੋਡ਼ ਕੰਪਿਉਟੇਸ਼ਨਲ ਭਾਸ਼ਾਈ ਸ਼ੋਧ ਵਿਚ ਹੁੰਦੀ ਹੈ। ਵਿਆਖਿਆ ਲਿਖਤ ਵਿਚ ਕੰਮ ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ; ਉਦਾਹਰਣ ਲਈ ਸ਼ਬਦ ਸ਼੍ਰੇਣੀ (POS) ਪਛਾਣ ਲਈ ਚੋਖੀ ਵਿਆਖਿਆ ਦੀ ਲੋਡ਼ ਹੁੰਦੀ ਹੈ ਜਿੱਥੇ ਪਾਠ ਸੰਗ੍ਰਹਿ ਵਿਚ ਹਰ ਸ਼ਬਦ ਨੂੰ ਟੈਗ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜਦਕਿ ਨਾਮਿਤ ਸੰਸਥਾ ਪਛਾਣ (NER) ਸੰਗ੍ਰਹਿ ਵਿਚ ਵਿਸ਼ੇਸ਼ ਸੰਸਥਾਵਾਂ ਦੀ ਲਿਖਤ ਵਿਆਖਿਆ ਦੀ ਲੋਡ਼ ਹੁੰਦੀ ਹੈ।

 

ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਦੇ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਬਨਾਉਣ ਦੀ ਦਿਸ਼ਾ ਵਿਚ ਕੀ ਕੋਸ਼ਿਸ਼ਾਂ ਕੀਤੀ ਜਾ ਰਹੀਆਂ ਹਨ? ਚੰਗਾ ਐਮਟੀ ਸਮਾਧਾਨ ਬਨਾਉਣ ਲਈ ਸਾਨੂੰ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਕਦੋਂ ਪ੍ਰਾਪਤ ਹੋਵੇਗਾ?

 

ਭਾਰਤ ਵਿਚ, ਸੇਂਟਰਲ ਇੰਸਟੀਟਿਉਟ ਆਫ ਇੰਡੀਅਨ ਲੈਂਗਵੇਜ (CIIL) ਵੱਲੋਂ ਇਕੱਠ ਸੰਗ੍ਰਹਿ ਵਧੀਕ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਉਪਲਬਧ ਹਨ। ਹਾਲਾਂਕਿ ਇਹ ਸੰਗ੍ਰਹਿ ਮੁਕਾਬਲਤਨ ਛੋਟਾ ਸੰਗ੍ਰਹਿ (ਲਗਭਗ 3-8M ਸ਼ਬਦ ਪ੍ਰਤੀ ਭਾਸ਼ਾ) ਹੈ ਜੋ ਬਿਨਾ ਵਿਆਖਿਆ ਵਾਲਾ ਵਿਭਿੰਨ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਇਕ ਮੂਲ ਮੋਨੋਲਿੰਗੁਅਲ ਪਾਠ ਸੰਗ੍ਰਹਿ ਹੈ। ਜਦਕਿ ਇਹ ਸੰਗ੍ਰਹਿ ਡਾਟਾ ਬਣਾਉਣ ਲਈ ਅੰਸ਼ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ। ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਸੰਗ੍ਰਹਿ ਦਾ ਹਿੱਸਾ ਅਤੇ ਉਹ ਦੀ ਗੁਣਵੱਤਾ ਖ਼ਾਸ ਤੌਰ ਤੇ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਕੰਪਿਉਟੇਸ਼ਨਲ ਸ਼ੋਧ ਦੀ ਮਦਦ ਲਈ ਵਧਾਈ ਜਾਣੀ ਚਾਹੀਦੀ ਹੈ।

 

ਹੁਣੇ ਲਿੰਗੁਇਸਟਿਕ ਡਾਟਾ ਕੰਸੋਰਟੀਅਮ ਫਾਰ ਇੰਡੀਅਨ ਲੈਂਗਵੇਜ (LDC-IL) ਨੂੰ ਭਾਰਤ ਸਰਕਾਰ ਹੇਠਲੇ ਮਾਨਵ ਸੰਸਾਧਨ ਅਤੇ ਵਿਕਾਸ ਮੰਤ੍ਰਾਲਾ ਵੱਲੋਂ, ਸਾਰੀਆਂ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਭਾਸ਼ਾਈ ਸੰਗ੍ਰਹਿ ਦੇ ਮਾਨਕ ਸੰਕਲਨ ਦੀ ਨਿਗਰਾਨੀ ਦੀ ਸ਼ੁਰੂਆਤ ਕੀਤੀ ਹੈ। ਵੱਖਰੇ ਅਕਾਦਮਿਕ ਅਤੇ ਉਦਯੋਗਿਕ ਪਾਰਟਨਰ ਇਹ ਸੰਕਲਨ ਬਣਾਉਣ ਲਈ ਕੰਮ ਕਰ ਰਹੇ ਹਨ। ਸਾਨੂੰ ਉੱਮੀਦ ਹੈ ਕਿ ਅਸੀਂ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਸੰਗ੍ਰਹਿ ਦੀ ਲੋਡ਼ੀਦੀ ਪੁਸਤਕਾਂ ਛੇਤੀ ਪ੍ਰਾਪਤ ਕਰਨਗੇ।

 

ਜੇਕਰ ਡਿਜ਼ਿਟਲ ਡਿਵਾਇਸਾਂ ਜਾਂ ਨੈੱਟ ਤੇ ਸਟੋਰ ਕੀਤੀ ਸਮੱਗਰੀ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਬਣਾਉਣ ਲਈ ਕਾਫ਼ੀ ਨਹੀਂ ਹੋਵੇਗੀ ਤਾਂ ਅਸੀਂ ਇਹ ਉਦੇਸ਼ ਨੂੰ ਕਿਸ ਤਰ੍ਹਾਂ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਨ?

 

ਐਥੇ, ਮੈਂ ਡਾਟਾ ਬਣਾਉਣ ਲਈ ਸਮੁਦਾਏ ਆਧਾਰਿਤ ਸਾਂਝੀਦਾਰੀ ਤੇ ਜ਼ੋਰ ਦੇਵਾਂਗਾ। ਭਾਸ਼ਾਈ ਸੰਗ੍ਰਹਿ ਨੂੰ ਬਣਾਉਣ ਲਈ ਕੰਮ ਪ੍ਰਣਾਲੀ ਦੇ ਰੂਪ ਵਿਚ ਜਨਤਕ ਸਰੋਤ ਦੀ ਅਹਿਮੀਅਤ ਨੂੰ ਹਾਈਲਾਇਟ ਕਰਨਾ ਮਹੱਤਵਪਰਨ ਹੈ ਕਿਉਂਕਿ ਵਥੇਰੀਆਂ ਤਰ੍ਹਾਂ ਦੇ ਸੰਗ੍ਰਹਿ ਨੂੰ ਭਾਸ਼ਾਈ ਗਿਆਨੀ ਜਾਂ ਭਾਸ਼ਾ ਮਾਹਰਾਂ ਵੱਲੋਂ ਬਣਾਏ ਜਾਣ ਦੀ ਲੋਡ਼ ਨਹੀਂ ਹੈ ਐਪਰ ਕਿਸੇ ਭਾਸ਼ਾ ਦੇ ਮਾਤਰ ਭਾਸ਼ਾਈ ਲੋਕਾਂ ਨੂੰ ਸਮਝਣਾ ਚਾਹੀਦਾ ਹੈ।

 

ਐਮਟੀ ਭਾਰਤੀ ਸਮੁਦਾਏ ਨੂੰ ਕਿਸ ਤਰ੍ਹਾਂ ਤੇ ਮਜ਼ਬੂਤੀ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ?

 

ਕਈ ਦਸ਼ਕਾਂ ਤੋਂ ਕੰਪਿਉਟੇਸ਼ਨਲ ਡਿਵਾਇਸਾਂ ਲੋਕਾਂ ਦੀ ਵਰਤੋਂ ਅੰਗ੍ਰੇਜ਼ੀ ਵਿਚ ਬਣਾਈ ਗਈਆਂ ਸਨ। ਐਪਰ, ਇਹ ਵੀ ਸੱਚਾਈ ਹੈ ਕਿ ਦੁਨਿਆ ਦੇ ਵਧੀਕ ਲੋਕ ਅੰਗ੍ਰੇਜ਼ੀ ਦੀ ਵਰਤੋਂ ਨਹੀਂ ਕਰ ਸਕਦੇ ਹਨ। ਇਸ ਤਰ੍ਹਾਂ ਤੇ ਉਹ ਕੰਪਿਉਟਰ ਦਾ ਫ਼ਇਦਾ ਪ੍ਰਾਪਤ ਨਹੀਂ ਕਰ ਸਕਦੇ ਹਨ। ਕਿਰਪਾ ਕਰਕੇ ਨੈੱਟ ਤੇ ਉਪਲਬਧ ਜਾਣਕਾਰੀ ਨੂੰ ਦੇਖੋ। ਵੈਵ ਤੇ ਉਪਲਬਧ ਵਧੀਕ ਜਾਣਕਾਰੀ ਅੰਗ੍ਰੇਜ਼ੀ ਦੇ ਇਲਾਵਾ ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਉਪਲਬਧ ਹੈ। ਜਨਤਕ ਅੰਕਡ਼ ਵਿਚ ਇਸ ਤਰ੍ਹਾਂ ਤੇ ਬਦਲਾਅ ਇਹ ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ ਕਿ ਤਕਨੀਕੀ ਨੂੰ ਖ਼ਾਸ ਤੌਰ ਤੇ ਬਹੁਭਾਸ਼ੀ ਵਰਤੋਂ ਜਨਤਕ ਦੀ ਮਦਦ ਲਈ, ਵਧੀਕ ਸਰੋਤਾ ਨੂੰ ਛੇਤੀ ਸ਼ਾਮਿਲ ਕਰਨ ਵਾਸਤੇ ਉਦਾਸੀਨ ਕੰਪਿਉਟੇਸ਼ਨਲ ਲਿਗੁਇਸਟਿਕਸ ਸ਼ੋਧ ਲਈ ਮਹੱਤਵਪੂਰਨ ਲੋਡ਼ ਨੂੰ ਧਿਆਨ ਵਿਚ ਰੱਖਦੇ ਹੋਏ ਵਿਕਸਿਤ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਭਾਰਤ ਜਿਵੇਂ ਦੇਸ਼ਾਂ ਵਿਚੋਂ ਅਸੀਂ ਇਹ ਚੁਣੌਤੀ ਦਾ ਸਾਮ੍ਹਣਾ ਕਰਦੇ ਹਨ ਕਿ ਇਥੇ ਦੀ ਵਧੀਕ ਆਵਾਮ ਨੂੰ ਅੰਗ੍ਰੇਜ਼ੀ ਦੀ ਜਾਣਕਾਰੀ ਨਹੀਂ ਹੈ। ਇੱਥੇ ਸਥਾਨਿਕ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਆਮ ਲੋਕਾਂ ਨੂੰ ਸ਼ਾਮਿਲ ਕਰਨ ਵਾਸਤੇ ਡਿਜ਼ਿਟਲ ਭਾਗ ਤੋਂ ਬਾਹਰ ਆਉਣ ਲਈ ਟੂਲ ਅਤੇ ਤਕਨੀਕੀ ਵੱਧ ਮਹੱਤਵਪੂਰਨ ਹੈ।

 

ਕੀ ਤੁਸੀਂ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਰਿਸਰਚ ਇੰਡੀਆ ਨਾਲ ਆਪਣੇ ਤਜ਼ਰਬੇ ਸਾਂਝਾ ਕਰ ਸਕਦੇ ਹੋ?

 

ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਵਿਚ ਇਕ ਵੱਡੀ ਟੀਮ ਹੈ। ਮੈਂਨੇ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਰਿਸਰਚ ਇੰਡੀਆ ਤੋਂ ਜੁਲਾਈ 2005 ਵਿਚ ਜੁਡ਼ੀਆ ਸੀ। ਮੈਂਨੂੰ ਭਾਸ਼ਾਵਾਂ ਤੋਂ ਵੱਡਾ ਪਿਆਰ ਹੈ ਅਤੇ ਖ਼ਾਸ ਤੌਰ ਤੇ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ। ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਰਿਸਰਚ ਇੰਡੀਆ ਨਾਲ ਮੈਂਨੂੰ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਦੀ ਸੇਵਾ ਕਾ ਵਿਸ਼ੇਸ਼ ਮੌਕਾ ਮਿਲਿਆ।

 

ਹਾਲ ਵਿਚ, ਸਮੁਦਾਏ ਆਧਾਰਿਤ ਡਾਟਾ ਨਿਰਮਾਣ ਪ੍ਰੋਜੇਕਟ - WikiBABEL ਤੇ ਕੰਮ ਕਰ ਰਿਹਾ ਹਾਂ – ਜੋ ਸਜੀਵ ਬਹੁਭਾਸ਼ੀ ਸਮੱਗਰੀ ਅਤੇ ਭਾਸ਼ਾਈ ਸਮਾਨ ਡਾਟਾ ਤਿਆਰ ਕਰਦਾ ਹੈ। ਇਸ ਪ੍ਰੋਜੇਕਟ ਦਾ ਉਦੇਸ਼ ਭਾਸ਼ਾਈ ਵਰਤੋਂ ਸਮੁਦਾਏ ਨੂੰ ਆਸਾਨ ਪਲੇਟਫਾਰਮ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ ਅਤੇ ਕਿਸੇ ਵੀ ਵਿਕ-ਸਾਈਟ ਲਈ ਬਹੁਭਾਸ਼ੀ ਸਮੱਗਰੀ ਬਣਾਉਣ ਲਈ ਉਪਭੋਗ ਦ੍ਰਿਸ਼ ਨੂੰ ਮਜ਼ਬੂਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਸਮਾਨ ਡਾਟਾ ਅਤੇ ਸਾਂਖਿਕੀ ਅਨੁਵਾਦ ਸਿਸਟਮ ਸ਼ੋਧ ਲਈ ਮਹੱਤਵਪੂਰਨ ਸਰੋਤ ਨੂੰ ਆਮ ਤੌਰ ਤੇ ਇਸਤੇਮਾਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

 

ਮੇਰੀ ਸ਼ੋਧ ਰੂਚੀਆਂ ਵਿਚ ਅੰਤਰ ਭਾਸ਼ੀ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨਾ /ਸਾਰ, ਮਸ਼ੀਨ ਅਨੁਵਾਦ, ਵਰਣਾਂਤਰ ਅਤੇ ਭਾਸ਼ਾਈ ਸ਼ੋਧ ਲਈ ਡਾਟਾ ਬਣਾਉਣ ਲਈ ਵਿਧੀਆਂ ਸ਼ਾਮਿਲ ਹਨ ਜਿਵੇਂ ਸੰਗ੍ਰਹਿ, ਸਮੁਦਾਏ ਸਹਿਕਾਰੀ ਖੇਡਾਂ।

 

ਅਖ਼ੀਰ ਵਿਚ, ਭਾਸ਼ਾਇੰਡੀਆ ਦੀ ਭਾਰਤੀ ਭਾਸ਼ਾ ਕੰਪਿਉਟਿੰਗ ਪਹਿਲ–ਕਦਮੀਆਂ ਨੂੰ ਕਿਸ ਤਰ੍ਹਾਂ ਦੇਖਨਗੇ?

 

ਭਾਸ਼ਾਇੰਡੀਆ ਕਿਸੇ ਵੀ ਭਾਰਤੀ ਭਾਸ਼ਾ ਸ਼ੌਕੀਨ ਲਈ ਇਕ ਜਾਣਕਾਰੀ ਪੋਰਟਲ ਹੈ। ਅਸੀਂ, ਪਾਠਕ ਗਣ ਭਾਸ਼ਾਇੰਡੀਆ ਵਿਚ ਭਰਪੂਰ ਸਮੱਗਰੀ ਅਤੇ ਕਿਰਿਆਸ਼ੀਲ ਫ਼ੋਰਮਾਂ ਚਾਹੁੰਦੇ ਹਨ। ਮੈਂ ਭਾਸ਼ਾਇੰਡੀਆ ਪੋਰਟਲ ਅਤੇ ਭਾਰਤੀ ਭਾਸ਼ਾ ਕੰਪਿਉਟਿੰਗ ਲਈ ਉਨ੍ਹਾਂ ਦੀ ਪਹਿਲਾਂ ਵਾਸਤੇ ਮੁਬਾਰਕਬਾਦ ਦਿੰਦਾ ਹਾਂ।

This site uses Unicode and Open Type fonts for Indic Languages. Powered by Microsoft SharePoint
©2017 Microsoft Corporation. All rights reserved.