இரு வாரங்களுக்குமுன், சென்னைப் பல்கலைக்கழகத்தில் ஏற்பாடு செய்திருந்த 10-நாள் தொல்காப்பியப் பயிற்சி அரங்கின் இறுதி நாள் விழாவுக்குச் சென்றிருந்தேன். அதற்கு மறுநாள் பேரா. தெய்வ சுந்தரத்தின் அலுவலகம் சென்று, அவர்களது ஆராய்ச்சிகளைப் பார்வையிட்டேன்.
கணினிவழியாக தமிழ்ச் சொற்களைப் பகுக்கும் வேலையில் ஈடுபட்டுள்ளார். ‘படித்துக்கொண்டிருந்தானா’ என்ற சொல் ‘படி+த்+து+(க்)+கொண்டு+இரு+(த்->ந்)+தான்+ஆ’ என்று பிரியும். இந்த வினைச்சொல்லின் வேர் ‘படி’. கொடுக்கும் எந்த வினையையும் பெயரையும் உடைத்து, துண்டுகளாக்கி, ஒவ்வொரு துண்டும் என்ன என்று சொல்லமுடியுமா? அதைத்தான் Morphological processing செய்ய முற்படுகிறது.
தமிழின் இலக்கணம் தெளிவானது. இலக்கண விதிகளைக் கொண்டு மிக அழகாக இவற்றைச் செய்துவிட முடியும். இந்திய மொழிகளிலேயே இந்த அளவுக்குத் துல்லியமான, முழுமையான விதிகள் கொண்டவை சமஸ்கிருதமும் தமிழும் மட்டுமே. தமிழில் சொற்பகுப்பாய்வை முழுமையாகச் செய்துமுடித்துவிட்டால் கணினியில் spellcheck போன்றவற்றை எளிதாகச் செய்யமுடியும். அத்துடன் இலக்கணத் தவறுகளையும் (பெருமளவு) களையமுடியும்.
பேரா. தெய்வ சுந்தரத்திடம் ஆராய்ச்சி செய்யும் மூன்று மாணவிகள் கணினிப் படிப்பின் பின்புலத்துடன் வந்துள்ளவர்கள். அத்துடன் தமிழ் இலக்கண அறிவையும் சேர்த்து இந்த மென்பொருள் உருவாக்கத்தில் இறங்கியுள்ளனர். அவர்களது மென்பொருளில் பல்வேறு வினைச்சொற்களையும் பெயர்ச்சொற்களையும் புகுத்தி, அது அந்தச் சொற்களை உடைத்துக் காண்பிப்பதைப் பார்த்தோம். நல்லதொரு, பாராட்டப்படவேண்டிய முயற்சி.
பேரா. தெய்வ சுந்தரத்தின் அலுவலகத்தில் ஓய்வுபெற்ற பேரா. முருகையன் அவர்களையும் சந்தித்தேன். இவர் text-to-speech (TTS) துறையில் நிறைய ஆய்வுகளைச் செய்தவர். இவரது திறமைகளைப் பிடித்து வாங்கி, தமிழுக்கான தரமான TTS ஒன்றை உருவாக்கவும் தெய்வ சுந்தரம் திட்டமிட்டுள்ளார். (ஆனால் தெய்வ சுந்தரமும் இந்த ஆண்டே ஓய்வு பெறப்போகிறார்!) தமிழகத்தில் பல பல்கலைக்கழகங்களில் கணினி+தமிழ் ஆய்வுகள் நடக்கும் இடங்களில் பலரும் இந்த TTS முயற்சிகளில் இறங்கியிருப்பதைக் காணலாம். பெங்களூரு IISC-ல் பேரா. ராமகிருஷ்ணன் இந்த முயற்சியில் இறங்கி, ஒரு டெமோ மென்பொருளையும் தந்துள்ளது உங்களுக்குத் தெரிந்திருக்கலாம். அந்த மென்பொருளில் நிறைய முன்னேற்றம் தேவை.
முருகையன் பேசும்போது தமிழில் சுமார் 20 ஃபோனீம்கள் (Phonemes) உள்ளன என்றும் கிட்டத்தட்ட 85 அல்லோஃபோன்கள் (Allophones) உள்ளன என்றும் சொன்னார். தமிழ் ஒரு ஃபொனெடிக் மொழி. கிட்டத்தட்ட ஒவ்வொரு எழுத்தும் ஒரு ஒலிப்பான் (ஃபோனீம்). ஆனால் சில ஒலிப்பான்கள் ஒன்றை ஒன்று நெருங்கி உள்ளதால் (ன, ந, ண, ர, ற போன்றவை) உயிர்+மெய்-ஐ விடக் குறைவான ஒலிப்பான்களே உள்ளன. ஆனால் சொல்லில் ஒரு எழுத்து வரும்போது வெவ்வேறு சொற்களில் வெவ்வேறு ஒலிகளைக் கொடுக்கும். அப்படிப்பட்ட ஒலிகள்தான் அல்லோஃபோன்கள்.
இந்த அல்லோஃபோன்களைப் பதிவுசெய்து, குறிப்பிட்ட ஒரு வாக்கியத்தைப் பல அல்லோஃபோன்களாக உடைத்து, ஒலியேற்றம் செய்து, ஏற்ற இறக்கங்களுக்காகச் சில முன்னேற்றங்களைச் செய்தால் கிடைத்துவிடும் text-to-speech.
முருகையன், இந்திய மொழிகளைப் பற்றியும் பேசிக்கொண்டிருந்தார். உள்ள மொழிகளிலேயே சமஸ்கிருதத்துக்கு TTS-ஐ எளிதாகச் செய்யலாம் என்றும் அடுத்தாற்போல தமிழுக்குத்தான் அப்படிச் செய்யமுடியும் என்றும் சொன்னார். பிற இந்திய மொழிகள் (இந்தி முதற்கொண்டு) மேலும் வேலை எடுக்கக்கூடியவையாம்.
***
தமிழின் இலக்கணக் கட்டமைப்பும் ஒலிக்கட்டமைப்பும் இன்றைய நவீன இந்திய மொழிகளில் தமிழை முதன்மையான மொழியாக வைத்திருப்பது ஆச்சரியமானது. கணினியில் Natural Language Processing என்று வரும்போது தமிழில் மிக வேகமாக வேலைகள் நடக்க வாய்ப்புகள் உள்ளன என்று தோன்றுகிறது.
உத்தமம் அமைப்பு சமீபத்தில் ஜெர்மனியின் நடத்திய TI-2009 மாநாட்டில் மார்ஃபாலஜி பற்றி நிறைய கட்டுரைகள் வந்திருந்தன. அடுத்து கோவையில் நடக்க உள்ள TI-2010-ல் இந்தத் துறையில் மேலும் பல புதுமைகள் நடந்தேறி இருக்கும்.
இந்திய தத்துவ அறிமுகம் ஐந்தாம் நிலை
19 hours ago
ன, ந, ண, ர, ற ,ள,ல .
ReplyDeletemr badri
i have problem always when i writing tamil. to differntciat these letters . in my school days onwards. how can i rectifive this. can u sugges a method.
i think this is the main problem to many
//இந்திய மொழிகளிலேயே இந்த அளவுக்குத் துல்லியமான, முழுமையான விதிகள் கொண்டவை சமஸ்கிருதமும் தமிழும் மட்டுமே.//
ReplyDelete”சமஸ்கிருதம் ஏற்கெனவே செத்தமொழி என்பதால் அதைக் கருத்தில் கொள்ளத் தேவையில்லை” என்றும் குறிப்பிட்டுவிடுங்கள். ஏன் வம்பு?
Rengadurai,
ReplyDeleteLOL
நீ்ண்ட காலமாகவே தமிழ் நாட்டில் ஒரு தொற்று நோய் பரவியுள்ளது. தமிழின் சிறப்பைக் கூறும் பொழுது கூடவே சமசுகிருதத்திற்கு அடுத்த படியாக என்று சேர்த்துக் கொள்ளவேண்டும் அல்லது குறைந்தது சமசு கிருதமும் தமிழும் என்றாவது சொல்ல வேண்டும் எனத் துடிக்கச் செய்யும் கொடுநோயே அது. சமசுகிருத எழுத்துகள் தமிழ் நெடுங்கணக்கைப் பார்த்து அமைக்கப்பட்டவையே எனப் பேராசிரியர் சி.இலக்குவனார் முதலான தமிழறிஞர்கள் மெய்ப்பித்து உள்ளனர். தமிழிலிருந்து இரவல் பெற்றதனால் தமிழுக்கு அமையும் சிறப்புகளில் சில சமசுகிதத்திற்கும் அமையலாம். ஆனால் வான்கோழி மயிலாகிவிட முடியாது. சிறந்த நூற்பணியாற்றிவரும் திரு பத்ரி எங்கே தன்னை இன வஞ்சகராக (இனத் துரோகியாக)க் கூறிவிடுவார்களோ என்ற அச்சத்தில் சமசுகிருதமும் எனக் குறிப்பிட்டிருப்பார் எனக் கருதுகிறேன். வாழும் வளர் தமிழுக்கு உள்ள சிறப்பு சமசுகிருதத்திற்கு இல்லை என்பதே உண்மை. இருப்பினும் தமிழ்ச் சொல் பகுப்பாய்வைக் கணிணி வழி ஆற்றும் செய்தியைக் குறிப்பிட்டதற்கு அவருக்கு நம் பாராட்டுகள். ஒலியனியல், உருபனியல், மரபியல், சொலலியல், உரியியல், முதலான மொழியியல் துறைகளில் இன்றைக்குப் பிற மொழியாளர்கள் அடைந்துள்ள முன்னேற்றத்தைத் தொல்காப்பியர் காலததிற்குப் பல்லாயிரம் ஆண்டுகளுக்கு முன்பே தமிழ் கொண்டிருந்ததது. அறிவியல் முறையில் அமைந்த தமிழ் மொழி கணிணி அறிவியல் பயன்பாட்டிற்கு மிக மிக எளிதானது என்பதை உணர்ந்து கணிணித் தமிழ் ஆர்வலர்கள் தொல்காப்பியத்தை முதலில் படிப்பது அவர்களின் ஆராய்ச்சிக்குப் பேருதவியாக அமையும் என்பதைக் கருத்தில கொள்ள வேண்டுகின்றேன். அன்புடன் இலக்குவனார் திருவள்ளுவன்
ReplyDeleteBadri,
ReplyDeleteRengadurai has been proved correct. :-)
Thanks
Venkataraghavan R
நல்ல தகவல். நன்றி பத்ரி.
ReplyDelete//தமிழின் இலக்கணக் கட்டமைப்பும் ஒலிக்கட்டமைப்பும் இன்றைய நவீன இந்திய மொழிகளில் தமிழை முதன்மையான மொழியாக வைத்திருப்பது ஆச்சரியமானது.//
தமிழின் இலக்கணத்தைப் பழைய பண்டமாகவும் சுமையாகவும் இழிக்கும் போக்கு பெருகி வருகிறது. தமிழின் இலக்கணம் அதன் முக்கிய வலு என்று உணர்வது நல்லது.
ஒரு சிலருக்குத் தமிழும் தெரியாது சமசுகிருதமும் தெரியாது. ஆனால் இந்த சமசுகிருதத்தைப்பற்றி யாராவது ஒரு வார்த்தை புகழ்ந்துவிட்டால் தூக்கிக்கொண்டு வந்துவிடுவார்கள். இவர்களால் தமிழுக்கு 1 நயா பைசாகூடப் பிரயோசனம் இல்லை என்பதை இந்த மேடையில் தெரிவித்துக்கொள்கிறேன்.
ReplyDelete