Sunday, June 27, 2010

தமிழ் இணைய மாநாடு - ஆய்வுகள்

இன்று இறுதி நாள். பொதுவாக ‘பின் அறையில்’ இருந்தபடி நிகழ்ச்சிகள் நடக்க உதவிவந்ததால் அரங்கங்களில் நான் அதிகமாகப் பங்கேற்கவில்லை. வாசு அரங்கநாதன் இல்லாத நிலை ஏற்பட்டால் அப்போது அவருடைய இடத்தில் இருந்து பேச்சாளர்களை அறிமுகம் செய்து கலந்துரையாடலில் ஈடுபடுத்தினேன். அவ்வளவுதான். அந்த அமர்வுகளைப் பற்றி பின்னர் எழுதுகிறேன்.

தமிழ்க் கணினி ஆராய்ச்சியில் எனக்கு இன்றைக்கு ஆர்வம் அதிகமாக இருப்பது ‘உரையிலிருந்து பேச்சுக்கு’ (Text-to-Speech), கையெழுத்தை உணர்தல் (Handwriting Recognition), சொல் பகுப்பான்கள் (Morphological segmenters) ஆகியவை. தமிழில் இந்தத் துறைகளில் ஆராய்ச்சிகள் ஆரம்பித்து ஓரளவுக்கு முன்னேறியிருப்பது மிகவும் மகிழ்ச்சியானது. அத்துடன் ‘உரையிலிருந்து முகபாவனை’ (மதன் கார்கி + அவருடைய குழுவினர்) சுவாரசியம் தரும் ஓர் ஆய்வு. அடுத்த சில ஆண்டுகளில் நான் இவற்றில் ஏதோ ஒரு வழியில் ஈடுபடுவேன்.

சென்னைப் பல்கலைக்கழகத்தில் பேராசிரியர் தெய்வசுந்தரத்தின் கணினி மொழியியல் துறையினர் செய்யும் ஆய்வுகள் மிகவும் ஆசுவாசம் அளிக்கின்றன. அவர்களது முடிவுகளை கணினி வல்லுனர்கள் நேரடியாகப் பயன்படுத்திக்கொள்ளமுடியும். அதேபோல அண்ணா பல்கலைக்கழகம், சென்னை (கிண்டி பொறியியல் கல்லூரி) குழுவினர் செய்யும் வேலைகளும் நிறைவை அளிக்கின்றன. இந்த இரு குழுவினருடனும் சேர்ந்து உறவாடினால் புதிய கருத்துகள் நிறையத் தோன்றும்.

உரையிலிருந்து பேச்சுக்குக் கொண்டுவரும் மென்பொருள்களை இணையத்தில் பல இடங்களில் அற்புதமாகப் பயன்படுத்தலாம். பார்வை குறைவு கொண்டோர், வயதானவர்கள், தமிழ் படிக்கத் தெரியாத, ஆனால் புரிந்துகொள்ளக்கூடியவர்கள், நேரப் பற்றாக்குறை உள்ளவர்கள், தமிழ் கற்றுக்கொள்பவர்கள், குழந்தைகள் என்று பலருக்கும் உபயோகமாக இருக்கும்.

இன்று அடோபி பி.டி.எஃப் கோப்புகளைப் படிக்கும் ரீடர் மென்பொருள், ஆங்கில உரைகளைத் தானாகப் படிக்கிறது. அதேபோல தமிழ் உரைகளைப் படிக்க வழி வேண்டும். அப்படி ஏற்பட்டால் முழுப் புத்தகங்களை கணினியைப் படிக்கவைத்துக் கேட்கமுடியும்.

கையெழுத்தை உணர்தல் தேவையில்லை என்றே பலர் நினைக்கலாம். விசைப்பலகை கொண்டு வேகமாக இன்று பலராலும் எழுதிவிட முடிகிறது. ஆனாலும் ஒரு மாநாட்டில் உட்கார்ந்திருக்கும்போதோ, வகுப்பறையிலோ, ஒரு தொழில் சந்திப்பின்போதோ, கையால் எழுதித்தான் குறிப்புகளை எடுத்துக்கொள்கிறோம். மேலும் கைபேசிகள் போன்ற கைக்கருவிகளில் எழுத்தாணி கொண்டு எழுதமுடியும். அப்படி எழுதும் குறிப்புகள் படமாக இல்லாமல், எழுத்தாக உணரப்படவேண்டும். அப்போதுதான் அதிகப் பயன். iphone, ipad போன்ற தொடுதிரைக் கருவிகளில் ஆங்கில மென்பொருள் விசைப்பலகை மேலெழும்பி வரும். அந்தக் கருவிகளில் அவ்வாறே மேலெழும்பும் தமிழ் விசைப்பலகை இருத்தல் வேண்டும். அது தமிழ்99 விசைப்பலகை வடிவில் இருக்கவேண்டுமா அல்லது அதிலிருந்து சற்றே மாறுபட்டதாக இருக்கவேண்டுமா என்பது மற்றொரு கேள்வி.

கணினி மொழியியல் புரிதல் மிகவும் அவசியமானது. பேரா. தெய்வசுந்தரம் இதனை மிக அழகாக விளக்கினார். ஆங்கிலத்தில் ஒரு வினைச்சொல்லுக்கு ஐந்து வடிவங்கள்தான் இருக்கும். உதாரணமாக 'go' என்பது, go, went, gone, going, goes என்ற ஐந்து வடிவங்களில்தான் மாற்றம் அடையும். ஆனால் தமிழ் ஒரு agglutinative மொழி என்பதால் ஒரு வினைச்சொல் கிட்டத்தட்ட 8,000 வடிவங்களாக மாற்றம் பெறும். சுமார் 5,000 வினைமுற்று, சுமார் 3,000 வினையெச்சம். ‘போ’ என்பது போனான், போகிறான், போவான், போனாள், போகிறாள், போவாள், போனார், போகிறார், போய்க்கொண்டிருக்கிறார்களா, போய்விட்டார்கள்... போனாரோ... போன, போகிற, போகும்... என்று பல. ஆங்கிலத்தில் 5,000 வினைச்சொற்கள் கொண்ட சொற்பிழை திருத்தி வேண்டும் என்றால், 5x5,000 = 25,000 வினை வடிவங்களை தரவுத்தளம் ஒன்றில் ஏற்றி, ஒப்பிட்டால் போதும். ஆனால் தமிழில் 5,000 x 8,000 = 40,000,000 - அதாவது 4 கோடி சொற்களை தரவுத்தளத்தில் ஏற்றவேண்டும். இது செயல்படுத்தக்கூடிய காரியமே அல்ல. கணினியால் இயங்கவே முடியாது.

எந்த ஒரு கணினிப் பிரச்னைக்கும் மூன்றுவிதமான தீர்வுகள் சாத்தியம். ஒன்று empirical முறை. தரவுத்தளத்தில் அனைத்துச் சொற்களையும் சேர்த்து ஒவ்வொன்றாக ஒப்பிடுவது இந்த முறை. அடுத்த rules based. எந்த விதிகளைக் கொண்டு தமிழ் மொழி வினை வடிவங்களை உருவாக்குகிறது என்பதை நன்கு தெரிந்துகொண்டு, கணினிக்குப் புரியும் வழியில் இந்த விதிகளைத் தருவது. மூன்றாவது முறை neural network முறை. இதில் கணினி, ஒரு புரிதலுடன் தொழிலை ஆரம்பிக்கும். ஆனால் ஒவ்வொரு கட்டத்திலும் தானாக மேற்கொண்டு புரிந்துகொண்டு, தன் அறிவை விசாலப்படுத்திக்கொள்ளும். மொழிமாற்றல் கருவிகளை இவ்வாறுதான் உருவாக்கப் பலர் முனைந்து வருகிறார்கள். மைக்ரோசாஃப்டின் குமரன் தனது பேச்சின்போது இதனை அழகாகக் குறிப்பிட்டார். “ஆங்கிலத்திலிருந்து ஃபிரெஞ்சுக்கும் ஃபிரெஞ்சிலிருந்து ஆங்கிலத்துக்கும் மொழிமாற்ற, ஒரு மில்லியன் வாக்கியங்கள் போதும். ஆனால் ஆங்கிலத்திலிருந்து தமிழுக்கும் தமிழிலிருந்து ஆங்கிலத்துக்கும் மொழிமாற்ற குறைந்தது நான்கு மில்லியன் வாக்கியங்களாவது வேண்டும்” என்றார்.
அத்துடன் புதிய புதிய வாக்கியங்கள் வரும்போது மேலும் மேலும் தனது மொழிமாற்றல் திறனை மேம்படுத்திக்கொள்ளும்.

இந்தத் துறைகளுடன் சேர்த்து, உரையிலிருந்து முகபாவம் கொண்டுவரும் வீடியோ மென்பொருள் துறையும் முக்கியமானது. ஏற்கெனவே ஆங்கிலத்தில் இதுபோன்ற சிலவற்றை பல ஆண்டுகளுக்கு முன்பே பார்த்திருக்கிறேன். தமிழில் இதைப்போல வந்தால் பிரமாதமாக இருக்கும். உங்களுக்கான பிரத்யேக செய்தி வாசிப்பாளரை நீங்களே தேர்ந்தெடுத்துக்கொள்ளலாம். அவருடைய குரலின் குழைவையும் இனிமையையும் கடுமையையும் நீங்களே தேர்ந்தெடுத்துக்கொள்ளலாம். அதற்குமேல் உங்கள் கற்பனைக்கு விட்டுவிடுகிறேன்.

இவைபற்றி வரும் நாள்களில் மேலும் எழுதுகிறேன்.

8 comments:

  1. Good one..adobe voice reader in tamil is a very good idea..adobe should take this and implement very soon..because now a days lot of tamil readers are there in online.

    ReplyDelete
  2. நன்றி! பயனுள்ள தகவல்கள்!

    ReplyDelete
  3. நீங்கள் சொன்னவை அனைத்தும்
    தமிழுக்கு வந்தால் ரொம்ப நல்லாருக்கும்.

    ReplyDelete
  4. நல்ல பதிவு.. அடுத்தடுத்த பதிகளில் ஆர்வமாக இருக்கிறேன்.

    ReplyDelete
  5. I think If we create an open source project for Tamil, that will do more good. (as it may receive contributions from the interested people around the world). One good example is "project madurai".

    ReplyDelete
  6. >தமிழில் 5,000 x 8,000 = 40,000,000 - அதாவது 4 கோடி சொற்களை தரவுத்தளத்தில் ஏற்றவேண்டும். இது செயல்படுத்தக்கூடிய காரியமே அல்ல. கணினியால் இயங்கவே முடியாது.

    Casandra மாதிரி cloud computing பயன்படுத்திச் செய்ய முடியாதா?

    ReplyDelete
  7. இது செயல்படுத்தக்கூடிய காரியமே அல்ல. கணினியால் இயங்கவே முடியாது........... பிராசசிங் பவர் அதிகமாகிக்கொண்டே போகிறதே.... அப்போது இத்தகைய எண்ணிக்கையிலான கால்குலேஷன் சாத்தியப்படாதா???

    ReplyDelete
  8. //ஆனால் தமிழில் 5,000 x 8,000 = .. emprical,neural..
    பயனுள்ள தகவல்கள். இதன் தொடர் கட்டுரையை விரைவில் எதிர் பார்க்கின்றோம்.

    ReplyDelete