இரு வாரங்களுக்குமுன், சென்னைப் பல்கலைக்கழகத்தில் ஏற்பாடு செய்திருந்த 10-நாள் தொல்காப்பியப் பயிற்சி அரங்கின் இறுதி நாள் விழாவுக்குச் சென்றிருந்தேன். அதற்கு மறுநாள் பேரா. தெய்வ சுந்தரத்தின் அலுவலகம் சென்று, அவர்களது ஆராய்ச்சிகளைப் பார்வையிட்டேன்.
கணினிவழியாக தமிழ்ச் சொற்களைப் பகுக்கும் வேலையில் ஈடுபட்டுள்ளார். ‘படித்துக்கொண்டிருந்தானா’ என்ற சொல் ‘படி+த்+து+(க்)+கொண்டு+இரு+(த்->ந்)+தான்+ஆ’ என்று பிரியும். இந்த வினைச்சொல்லின் வேர் ‘படி’. கொடுக்கும் எந்த வினையையும் பெயரையும் உடைத்து, துண்டுகளாக்கி, ஒவ்வொரு துண்டும் என்ன என்று சொல்லமுடியுமா? அதைத்தான் Morphological processing செய்ய முற்படுகிறது.
தமிழின் இலக்கணம் தெளிவானது. இலக்கண விதிகளைக் கொண்டு மிக அழகாக இவற்றைச் செய்துவிட முடியும். இந்திய மொழிகளிலேயே இந்த அளவுக்குத் துல்லியமான, முழுமையான விதிகள் கொண்டவை சமஸ்கிருதமும் தமிழும் மட்டுமே. தமிழில் சொற்பகுப்பாய்வை முழுமையாகச் செய்துமுடித்துவிட்டால் கணினியில் spellcheck போன்றவற்றை எளிதாகச் செய்யமுடியும். அத்துடன் இலக்கணத் தவறுகளையும் (பெருமளவு) களையமுடியும்.
பேரா. தெய்வ சுந்தரத்திடம் ஆராய்ச்சி செய்யும் மூன்று மாணவிகள் கணினிப் படிப்பின் பின்புலத்துடன் வந்துள்ளவர்கள். அத்துடன் தமிழ் இலக்கண அறிவையும் சேர்த்து இந்த மென்பொருள் உருவாக்கத்தில் இறங்கியுள்ளனர். அவர்களது மென்பொருளில் பல்வேறு வினைச்சொற்களையும் பெயர்ச்சொற்களையும் புகுத்தி, அது அந்தச் சொற்களை உடைத்துக் காண்பிப்பதைப் பார்த்தோம். நல்லதொரு, பாராட்டப்படவேண்டிய முயற்சி.
பேரா. தெய்வ சுந்தரத்தின் அலுவலகத்தில் ஓய்வுபெற்ற பேரா. முருகையன் அவர்களையும் சந்தித்தேன். இவர் text-to-speech (TTS) துறையில் நிறைய ஆய்வுகளைச் செய்தவர். இவரது திறமைகளைப் பிடித்து வாங்கி, தமிழுக்கான தரமான TTS ஒன்றை உருவாக்கவும் தெய்வ சுந்தரம் திட்டமிட்டுள்ளார். (ஆனால் தெய்வ சுந்தரமும் இந்த ஆண்டே ஓய்வு பெறப்போகிறார்!) தமிழகத்தில் பல பல்கலைக்கழகங்களில் கணினி+தமிழ் ஆய்வுகள் நடக்கும் இடங்களில் பலரும் இந்த TTS முயற்சிகளில் இறங்கியிருப்பதைக் காணலாம். பெங்களூரு IISC-ல் பேரா. ராமகிருஷ்ணன் இந்த முயற்சியில் இறங்கி, ஒரு
டெமோ மென்பொருளையும் தந்துள்ளது உங்களுக்குத் தெரிந்திருக்கலாம். அந்த மென்பொருளில் நிறைய முன்னேற்றம் தேவை.
முருகையன் பேசும்போது தமிழில் சுமார் 20 ஃபோனீம்கள் (Phonemes) உள்ளன என்றும் கிட்டத்தட்ட 85 அல்லோஃபோன்கள் (Allophones) உள்ளன என்றும் சொன்னார். தமிழ் ஒரு ஃபொனெடிக் மொழி. கிட்டத்தட்ட ஒவ்வொரு எழுத்தும் ஒரு ஒலிப்பான் (ஃபோனீம்). ஆனால் சில ஒலிப்பான்கள் ஒன்றை ஒன்று நெருங்கி உள்ளதால் (ன, ந, ண, ர, ற போன்றவை) உயிர்+மெய்-ஐ விடக் குறைவான ஒலிப்பான்களே உள்ளன. ஆனால் சொல்லில் ஒரு எழுத்து வரும்போது வெவ்வேறு சொற்களில் வெவ்வேறு ஒலிகளைக் கொடுக்கும். அப்படிப்பட்ட ஒலிகள்தான் அல்லோஃபோன்கள்.
இந்த அல்லோஃபோன்களைப் பதிவுசெய்து, குறிப்பிட்ட ஒரு வாக்கியத்தைப் பல அல்லோஃபோன்களாக உடைத்து, ஒலியேற்றம் செய்து, ஏற்ற இறக்கங்களுக்காகச் சில முன்னேற்றங்களைச் செய்தால் கிடைத்துவிடும் text-to-speech.
முருகையன், இந்திய மொழிகளைப் பற்றியும் பேசிக்கொண்டிருந்தார். உள்ள மொழிகளிலேயே சமஸ்கிருதத்துக்கு TTS-ஐ எளிதாகச் செய்யலாம் என்றும் அடுத்தாற்போல தமிழுக்குத்தான் அப்படிச் செய்யமுடியும் என்றும் சொன்னார். பிற இந்திய மொழிகள் (இந்தி முதற்கொண்டு) மேலும் வேலை எடுக்கக்கூடியவையாம்.
***
தமிழின் இலக்கணக் கட்டமைப்பும் ஒலிக்கட்டமைப்பும் இன்றைய நவீன இந்திய மொழிகளில் தமிழை முதன்மையான மொழியாக வைத்திருப்பது ஆச்சரியமானது. கணினியில் Natural Language Processing என்று வரும்போது தமிழில் மிக வேகமாக வேலைகள் நடக்க வாய்ப்புகள் உள்ளன என்று தோன்றுகிறது.
உத்தமம் அமைப்பு சமீபத்தில் ஜெர்மனியின் நடத்திய
TI-2009 மாநாட்டில் மார்ஃபாலஜி பற்றி நிறைய கட்டுரைகள் வந்திருந்தன. அடுத்து கோவையில் நடக்க உள்ள TI-2010-ல் இந்தத் துறையில் மேலும் பல புதுமைகள் நடந்தேறி இருக்கும்.