Sunday, November 29, 2009

எழுத்திலிருந்து ஒலிவடிவத்துக்கு (Text to Speech)

இரு வாரங்களுக்குமுன், சென்னைப் பல்கலைக்கழகத்தில் ஏற்பாடு செய்திருந்த 10-நாள் தொல்காப்பியப் பயிற்சி அரங்கின் இறுதி நாள் விழாவுக்குச் சென்றிருந்தேன். அதற்கு மறுநாள் பேரா. தெய்வ சுந்தரத்தின் அலுவலகம் சென்று, அவர்களது ஆராய்ச்சிகளைப் பார்வையிட்டேன்.

கணினிவழியாக தமிழ்ச் சொற்களைப் பகுக்கும் வேலையில் ஈடுபட்டுள்ளார். ‘படித்துக்கொண்டிருந்தானா’ என்ற சொல் ‘படி+த்+து+(க்)+கொண்டு+இரு+(த்->ந்)+தான்+ஆ’ என்று பிரியும். இந்த வினைச்சொல்லின் வேர் ‘படி’. கொடுக்கும் எந்த வினையையும் பெயரையும் உடைத்து, துண்டுகளாக்கி, ஒவ்வொரு துண்டும் என்ன என்று சொல்லமுடியுமா? அதைத்தான் Morphological processing செய்ய முற்படுகிறது.

தமிழின் இலக்கணம் தெளிவானது. இலக்கண விதிகளைக் கொண்டு மிக அழகாக இவற்றைச் செய்துவிட முடியும். இந்திய மொழிகளிலேயே இந்த அளவுக்குத் துல்லியமான, முழுமையான விதிகள் கொண்டவை சமஸ்கிருதமும் தமிழும் மட்டுமே. தமிழில் சொற்பகுப்பாய்வை முழுமையாகச் செய்துமுடித்துவிட்டால் கணினியில் spellcheck போன்றவற்றை எளிதாகச் செய்யமுடியும். அத்துடன் இலக்கணத் தவறுகளையும் (பெருமளவு) களையமுடியும்.

பேரா. தெய்வ சுந்தரத்திடம் ஆராய்ச்சி செய்யும் மூன்று மாணவிகள் கணினிப் படிப்பின் பின்புலத்துடன் வந்துள்ளவர்கள். அத்துடன் தமிழ் இலக்கண அறிவையும் சேர்த்து இந்த மென்பொருள் உருவாக்கத்தில் இறங்கியுள்ளனர். அவர்களது மென்பொருளில் பல்வேறு வினைச்சொற்களையும் பெயர்ச்சொற்களையும் புகுத்தி, அது அந்தச் சொற்களை உடைத்துக் காண்பிப்பதைப் பார்த்தோம். நல்லதொரு, பாராட்டப்படவேண்டிய முயற்சி.

பேரா. தெய்வ சுந்தரத்தின் அலுவலகத்தில் ஓய்வுபெற்ற பேரா. முருகையன் அவர்களையும் சந்தித்தேன். இவர் text-to-speech (TTS) துறையில் நிறைய ஆய்வுகளைச் செய்தவர். இவரது திறமைகளைப் பிடித்து வாங்கி, தமிழுக்கான தரமான TTS ஒன்றை உருவாக்கவும் தெய்வ சுந்தரம் திட்டமிட்டுள்ளார். (ஆனால் தெய்வ சுந்தரமும் இந்த ஆண்டே ஓய்வு பெறப்போகிறார்!) தமிழகத்தில் பல பல்கலைக்கழகங்களில் கணினி+தமிழ் ஆய்வுகள் நடக்கும் இடங்களில் பலரும் இந்த TTS முயற்சிகளில் இறங்கியிருப்பதைக் காணலாம். பெங்களூரு IISC-ல் பேரா. ராமகிருஷ்ணன் இந்த முயற்சியில் இறங்கி, ஒரு டெமோ மென்பொருளையும் தந்துள்ளது உங்களுக்குத் தெரிந்திருக்கலாம். அந்த மென்பொருளில் நிறைய முன்னேற்றம் தேவை.

முருகையன் பேசும்போது தமிழில் சுமார் 20 ஃபோனீம்கள் (Phonemes) உள்ளன என்றும் கிட்டத்தட்ட 85 அல்லோஃபோன்கள் (Allophones) உள்ளன என்றும் சொன்னார். தமிழ் ஒரு ஃபொனெடிக் மொழி. கிட்டத்தட்ட ஒவ்வொரு எழுத்தும் ஒரு ஒலிப்பான் (ஃபோனீம்). ஆனால் சில ஒலிப்பான்கள் ஒன்றை ஒன்று நெருங்கி உள்ளதால் (ன, ந, ண, ர, ற போன்றவை) உயிர்+மெய்-ஐ விடக் குறைவான ஒலிப்பான்களே உள்ளன. ஆனால் சொல்லில் ஒரு எழுத்து வரும்போது வெவ்வேறு சொற்களில் வெவ்வேறு ஒலிகளைக் கொடுக்கும். அப்படிப்பட்ட ஒலிகள்தான் அல்லோஃபோன்கள்.

இந்த அல்லோஃபோன்களைப் பதிவுசெய்து, குறிப்பிட்ட ஒரு வாக்கியத்தைப் பல அல்லோஃபோன்களாக உடைத்து, ஒலியேற்றம் செய்து, ஏற்ற இறக்கங்களுக்காகச் சில முன்னேற்றங்களைச் செய்தால் கிடைத்துவிடும் text-to-speech.

முருகையன், இந்திய மொழிகளைப் பற்றியும் பேசிக்கொண்டிருந்தார். உள்ள மொழிகளிலேயே சமஸ்கிருதத்துக்கு TTS-ஐ எளிதாகச் செய்யலாம் என்றும் அடுத்தாற்போல தமிழுக்குத்தான் அப்படிச் செய்யமுடியும் என்றும் சொன்னார். பிற இந்திய மொழிகள் (இந்தி முதற்கொண்டு) மேலும் வேலை எடுக்கக்கூடியவையாம்.

***

தமிழின் இலக்கணக் கட்டமைப்பும் ஒலிக்கட்டமைப்பும் இன்றைய நவீன இந்திய மொழிகளில் தமிழை முதன்மையான மொழியாக வைத்திருப்பது ஆச்சரியமானது. கணினியில் Natural Language Processing என்று வரும்போது தமிழில் மிக வேகமாக வேலைகள் நடக்க வாய்ப்புகள் உள்ளன என்று தோன்றுகிறது.

உத்தமம் அமைப்பு சமீபத்தில் ஜெர்மனியின் நடத்திய TI-2009 மாநாட்டில் மார்ஃபாலஜி பற்றி நிறைய கட்டுரைகள் வந்திருந்தன. அடுத்து கோவையில் நடக்க உள்ள TI-2010-ல் இந்தத் துறையில் மேலும் பல புதுமைகள் நடந்தேறி இருக்கும்.

7 comments:

  1. ன, ந, ண, ர, ற ,ள,ல .

    mr badri
    i have problem always when i writing tamil. to differntciat these letters . in my school days onwards. how can i rectifive this. can u sugges a method.

    i think this is the main problem to many

    ReplyDelete
  2. //இந்திய மொழிகளிலேயே இந்த அளவுக்குத் துல்லியமான, முழுமையான விதிகள் கொண்டவை சமஸ்கிருதமும் தமிழும் மட்டுமே.//

    ”சமஸ்கிருதம் ஏற்கெனவே செத்தமொழி என்பதால் அதைக் கருத்தில் கொள்ளத் தேவையில்லை” என்றும் குறிப்பிட்டுவிடுங்கள். ஏன் வம்பு?

    ReplyDelete
  3. நீ்ண்ட காலமாகவே தமிழ் நாட்டில் ஒரு தொற்று நோய் பரவியுள்ளது. தமிழின் சிறப்பைக் கூறும் பொழுது கூடவே சமசுகிருதத்திற்கு அடுத்த படியாக என்று சேர்த்துக் கொள்ளவேண்டும் அல்லது குறைந்தது சமசு கிருதமும் தமிழும் என்றாவது சொல்ல வேண்டும் எனத் துடிக்கச் செய்யும் கொடுநோயே அது. சமசுகிருத எழுத்துகள் தமிழ் நெடுங்கணக்கைப் பார்த்து அமைக்கப்பட்டவையே எனப் பேராசிரியர் சி.இலக்குவனார் முதலான தமிழறிஞர்கள் மெய்ப்பித்து உள்ளனர். தமிழிலிருந்து இரவல் பெற்றதனால் தமிழுக்கு அமையும் சிறப்புகளில் சில சமசுகிதத்திற்கும் அமையலாம். ஆனால் வான்கோழி மயிலாகிவிட முடியாது. சிறந்த நூற்பணியாற்றிவரும் திரு பத்ரி எங்கே தன்னை இன வஞ்சகராக (இனத் துரோகியாக)க் கூறிவிடுவார்களோ என்ற அச்சத்தில் சமசுகிருதமும் எனக் குறிப்பிட்டிருப்பார் எனக் கருதுகிறேன். வாழும் வளர் தமிழுக்கு உள்ள சிறப்பு சமசுகிருதத்திற்கு இல்லை என்பதே உண்மை. இருப்பினும் தமிழ்ச் சொல் பகுப்பாய்வைக் கணிணி வழி ஆற்றும் செய்தியைக் குறிப்பிட்டதற்கு அவருக்கு நம் பாராட்டுகள். ஒலியனியல், உருபனியல், மரபியல், சொலலியல், உரியியல், முதலான மொழியியல் துறைகளில் இன்றைக்குப் பிற மொழியாளர்கள் அடைந்துள்ள முன்னேற்றத்தைத் தொல்காப்பியர் காலததிற்குப் பல்லாயிரம் ஆண்டுகளுக்கு முன்பே தமிழ் கொண்டிருந்ததது. அறிவியல் முறையில் அமைந்த தமிழ் மொழி கணிணி அறிவியல் பயன்பாட்டிற்கு மிக மிக எளிதானது என்பதை உணர்ந்து கணிணித் தமிழ் ஆர்வலர்கள் தொல்காப்பியத்தை முதலில் படிப்பது அவர்களின் ஆராய்ச்சிக்குப் பேருதவியாக அமையும் என்பதைக் கருத்தில கொள்ள வேண்டுகின்றேன். அன்புடன் இலக்குவனார் திருவள்ளுவன்

    ReplyDelete
  4. Badri,

    Rengadurai has been proved correct. :-)

    Thanks

    Venkataraghavan R

    ReplyDelete
  5. நல்ல தகவல். நன்றி பத்ரி.

    //தமிழின் இலக்கணக் கட்டமைப்பும் ஒலிக்கட்டமைப்பும் இன்றைய நவீன இந்திய மொழிகளில் தமிழை முதன்மையான மொழியாக வைத்திருப்பது ஆச்சரியமானது.//

    தமிழின் இலக்கணத்தைப் பழைய பண்டமாகவும் சுமையாகவும் இழிக்கும் போக்கு பெருகி வருகிறது. தமிழின் இலக்கணம் அதன் முக்கிய வலு என்று உணர்வது நல்லது.

    ReplyDelete
  6. ஒரு சிலருக்குத் தமிழும் தெரியாது சமசுகிருதமும் தெரியாது. ஆனால் இந்த சமசுகிருதத்தைப்பற்றி யாராவது ஒரு வார்த்தை புகழ்ந்துவிட்டால் தூக்கிக்கொண்டு வந்துவிடுவார்கள். இவர்களால் தமிழுக்கு 1 நயா பைசாகூடப் பிரயோசனம் இல்லை என்பதை இந்த மேடையில் தெரிவித்துக்கொள்கிறேன்.

    ReplyDelete