• Тіл
  • 14 Мамыр, 2015

Мәтін тізбесіне мән беретін кез келді...

Қазіргі жаһандану кезеңінде әртүрлі саяси-әлеуметтік, экономикалық қарым-қатынастарға байланыс­ты ақпарат ағыны бұрын-соңды болмаған қарқынмен өршуде. Ал қоғам өміріндегі мұндай ақпарат ағымының таралуы табиғи тілде жүзеге асатындықтан, тіл білімінің қызметі күннен-күнге кеңеюде. Осыған байланысты ұшы-қиырсыз ақпарат ағынын игеру мақсатында шетел және орыс тіл білімінде орасан зор нәтиже беріп отырған тілдік корпустарды қазақ тіл білімінің материалдары негізінде жасау бүгінде үлкен сұранысқа ие болып отыр. Сондықтан тіл білімінің осындай аса қызығушылық туғызып отырған жаңа саласы – корпустық лингвистиканың зерттеу нысаны қандай, тілдік корпус дегеніміз не, мәтіндер корпусын құрастыру не үшін қажет және ол қандай ғылыми-теориялық мәселелерді шешуге септігін тигізеді деген мәселелерден көпшілікті хабардар еткіміз келеді. Соңғы жылдары «Корпустық лингвис­тика» ғылымның бір саласы ретінде айқын басымдық алып отыр.Өйткені осы саланың зерттеу нәтижесі – мәтіндік корпустарды пайдаланбай тілдік зерттеулерде тәжірибе жүргізудің, әсіресе сөздік құрастырудың, неше түрлі грамматикалар дайындаудың оңайға түспейтіндігі айқындалып отыр. Корпустық лингвистика 1963 жылы АҚШ-та пайда болып, Браун корпусынан (The Brown Standard Corpus of American English) бастама алады. Бастапқыда бұл корпустың көлемі 1 млн. сөзқолданыстан тұрып, оның құрамында әрбіреуі 2 мың сөзқолданысқа тең 500 мәтін қамтылған. Алайда тілдік зерттеулерді сапалы жүргізу тек ауқымды тілдік материалдар негізінде ғана жүзеге асатындығы байқала бастады. Корпустық лингвистиканың ағылшын тіл білімінде кеңінен дамуын ғалымдар АҚШ-та компьютерлік техника мен ХХ ғасырдың 60-80 жылдары британ лингвистикасындағы интеллектілік ахуалдың белсенді дамуымен түсіндіреді. Осы кездерде тілдік зерттеулердің ең көп бөлігі компьютерленген мәтіндік корпустарға лингвистикалық талдау жүргізуге бағытталғандығы мәлім. Корпустық лингвистика жетістіктерінің бірі ретінде аса дамыған корпус түрі – Ұлттық корпусты ерекше атауға болады. Бұл белгілі дәрежеде Ұлттық тілді толық түрде бейнелейді. Сондықтан Ұлттық корпустар әр тілдің тілдік заңдылықтарын, оның ішінде тұрақты лексика-грамматикалық жүйесін толық қамтыған (терең аннотацияланған) миллиондаған сөзқолданыстан тұратын электронды пішіндегі көлемді мәтіндер жинағы болып табылады. Ұлттық корпус, ең бірінші кезекте, тілші-ғалымдарға лексика мен грамматиканы жан-жақты зерттеуге мүмкіндік береді. Ал корпустың келесі міндеті – тілдің ішкі салалық (лексика, грамматика, тіл тарихы және т.б.) аясына қатысты әртүрлі анықтағыштық рөл атқару. Егер Ұлттық корпуста тілдік бірліктердің статистикалық сипаты да берілетін болса, ондай деректермен әдебиетшілер, тарихшылар және басқа да қоғамдық ғылымдардың мамандары пайдалана алады. Әрине, Ұлттық корпусты қолданудың маңызы тілдерді ана тілі немесе шет тілі ретінде оқыту да арта түседі. Сондықтан қазіргі кезде көптеген оқулықтар мен оқу бағдарламалары мәтіндік корпус­тарға бағышталып құрастырылуда. Мәселен, мағынасы белгісіз сөздер мен грамматикалық қалыптарын қолдану ерекшеліктерін электрондық корпус көмегімен шетелдік азамат та, оқушы да, оқытушы да, журналист те, жазушы да тез әрі тиімді меңгере немесе тексере алады. Корпустық лингвистика тіл білімінің жеке саласы ретінде математикалық лингвистика, дискурстік талдау және лексикография салаларымен ұштасып жатады. Корпустық лингвистиканың басқа тіл ғылымы пәндерімен жақындығы, бір жағынан, мәтіндер корпусының корпустық лингвистика қызметінің нәтижесі, екіншіден, лингвистикалық пәндердің басқа түрлеріне де бастапқы эмпирикалық материал болу мүмкіндігіне байланысты. Ұлттық корпус лексикографияға, жасанды зияткерлікке, әдебиеттануға, сөйлеу тілін талдау мен жинақтауға және лингвистиканың барлық салаларына қатысты зерттеу түрлерін жүргізуді қамтамасыз етеді. Сонымен бірге танымал академиялық сөздіктер құрастыру мен ғылыми грамматикалар жазуда корпустардың маңызы ерекше. Ұлттық корпусты пайдаланушылар – әртүрлі саладағы тілшілер, әдебиеттанушылар, тарихшылар және гуманитарлық білім салаларының өкілдері. Ұлттық корпустың ана тілі мен шет тілін оқытуда, оқулықтар мен бағдарламалар құрастыруда маңыздылығы да аса зор деуге болады. Сондықтан корпустық лингвис­тиканы қазақ тіл білімінің де ерекше саласы ретінде қалыптастырып, әрі қарай жетілдіру қазақ тілші-ғалымдарына көлемді тәжірибелік материалдарды пайдалануға, қажетті деген тілдік деректерді тауып алуға және оларға тиісті өңдеулер жүргізуге мүмкіндік туғызады. Қазақ тілінің ұлттық сипаттағы «тұл­ғалы» тілдік корпустарын құрастыру мәселесі қазіргі кезде Қазақстанның бірнеше ғылыми-қолданбалы бағыттағы орталықтарында (Еуразия университетінде «Жасанды интеллект», әл-Фараби атын­дағы ҚазҰУ-де, т.б.) қолға алынып, дербес жұмыс істеп жатыр. Алайда олардың барлығы да орыс тілі тәжірибесіне сүйеніп, корпус құрастыру мәселесін өзінше шешемін деп талаптанғанымен ауқымды мәтіндерді компьютер жадына енгізу, лингвистикалық белгіленімдер талдамасын жасау ісінде шашыраңқылық танытатыны белгілі. Өйткені әр мекемеде жасалып жатқан корпустардағы лингвистикалық белгіленімдер мен олардың моделі, шартты белгілері бірізді емес. Бұл – бір. Екіншіден, автоматты түрде лингвистикалық белгіленім қою мәселесі әлі де болса толық шешімін таппаған. Тілдік талдаулардың өзінде де даулы мәселелер баршылық. Сондықтан аннотацияланған тілдік корпустарды құрастыру ісіне білікті, тәжірибелі лингвистерді тарту қажеттігін туындатады. Үшіншіден, жоғарыда сөз болғандай, миллиондаған сөзқолданыстан тұратын корпустар құрастыру үшін аса көлемді мәтіндердің электронды нұсқасы қажет болады. Ал оларды «қолдан» енгізу көп уақытты қажет ететіні белгілі. Осы орайда бұл мәселе Қазақстан аумағындағы кітап, газет-журнал шығаратын баспалармен келісімге келе отырып шешілетін мәселе деп санаймыз. А.Байтұрсынұлы атындағы Тіл білімі институты  қазақ тілінің корпусын құрастыру мәселесі бойынша 2009 жылдан бастап зерттеу жүргізіп келеді. Қазақ тілінің әртүрлі стильдері бойынша интернет желілерінен, электронды кітапханалардан, т.б. дереккөздерден мәтіндер жинақталып, автоматты түрде мәтіндердегі сөздерді түбір сөздер мен сөз түрлендіруші қосымшаларға ажырататын және оларға морфологиялық белгіленім қоятын бағдарлама жасалды. Қазіргі уақытта басқа да лингвистикалық белгіленім түрлері бойынша зерттеулер жүргізіліп жатыр. Корпус құрастыру ісін орталықтан­ды­рып, үлкен күшпен мемлекет тарапынан қолдау көрсетілетін болса, мынадай корпус түрлерін жасап шығуға болар еді. 1) Қазақ тілінің қазіргі кездегі (немесе кезеңдік) бұқаралық ақпарат құралдары (газет, журнал бетіндегі) мәтіндерінің жеке корпусы; 2) Қазақша сөйлеу тілі жазбасының (мәтінінің) жеке корпусы (орыс тілінің «Корпус живой русской речи» тәріздес); 3) Қазақ тілінің мультимедиалық корпусы (корпустың негізін мәтіндердің бейне және дыбыс жазбалары құрайды); 4) Қазақ тілімен параллель тілдердің жеке корпусы (түркітілдес және үндіеуропа тілдері), мысалы, қазақ-қырғыз, қырғыз-қазақ, қазақ-өзбек, өзбек-қазақ және т.б., сол сияқты, қазақ-орыс, орыс-қазақ, қазақ-украин, украин-қазақ және т.б. қатар тілдер корпусы; 5) Қазақ тілінің поэтикалық мәтіндерінің жеке корпусы (орыс тілінің «Корпус русских поэтических текстов» тәріздес); 6) Қазақ тілінің білім беру корпусы (орыс тілінің «Обучающий корпус русского языка» тәріздес). Бір айта кететін жайт, «Орыс тілінің Ұлттық корпусы» бойынша ақпарат іздеу жүйесін құру әрекетіне «Яндекс» компаниясы қолдау көрсеткені мәлім. Сол сияқты «Қазақ тілінің Ұлттық корпусынан» ақпарат іздестіруге және оның интернеттегі сайтының дизайнына да қолдау көрсететін компаниялар табылып жатса нұр үстіне нұр болар еді. Қорыта келе айтарымыз, Ұлттық тіл мәтіндерінің компьютерлік корпусын құру жобасы бір ғана ғылыми ұйымның шешетін мәселесі емес және ол зерттеу жұмысы 3-5 жылда аяқтала қояды деуге де болмайды. Себебі бұл аса күрделі және оның нәтижелері әлемдік дәрежедегі аса маңызды ғылыми жұмыс болып саналады. Зерттеу жұмысының мақсатына сай орындалатын міндеттері де сала-салаға, кезең-кезеңге бөлініп, тек қана ғалымдар қауымдастығын құру арқылы ғана ауқымды нәтижеге ие боларымыз сөзсіз. Мемлекеттік тілдің өз деңгейінде қызмет етуін шындап мақсат етсек, тілімізді компьютерлендіру ісімен айналысатын орталық немесе институт құрылса да артық етпес еді. Демек, қазақ тілінің тілдік корпус­тарын жасау – көп болып жұмылып атқаратын ұлттық құндылығымыз. Сондықтан Қазақстанның әр жерінде бір-бірінен дербес атқарылып жатқан корпус жасау ісін орталықтандыру керек немесе Ғылым комитеті аясындағы «Филологтар қауымдастығын құру» аса қажет. Бұл ретте: – оған Қазақстанның әр жерінде ғы­лыми-педагогикалық қызмет атқа­рып жүрген ғалымдардан арнайы лингвис­ти­калық топ құру керек. Өйткені тілдік бір­ліктерді модельдеу – өте күрделі мәселе. Сондай-ақ тілдік корпустар құрастырудың өзі ең алды­мен лингвистикалық белгіленім талдамасын жасауға тіреледі; – осы кезге дейін жасалып жатқан корпус жасау тәжірибесіндегі нәтижелерді бір орталыққа жинақтау керек; – кітап, газет-журнал шығаратын бас­палармен шартқа отырып, олардан мәтін­дердің электронды нұсқаларын алу қажет. Сонымен қазақ тілінің Ұлттық корпусын жасау үшін А.Байтұрсынұлы атындағы Тіл білімі институтында арнайы орталық құрудың қажеттігі мен оның алғышарттарын атап көрсеттік. Ал мұндай ауқымды іске мемлекет тарапынан қолдау көрсетілсе, біртұтас қазақ тілінің Ұлттық корпусын құрастыру ісі алға басатыны сөзсіз. Мұндай Ұлттық құндылықты жасап шығару бүгінгі қазақ тіл білімінің ғана емес, қоғамның болашаққа қояр талаптарының бірі деп білеміз.

Асқар Жұбанов, А.Байтұрсынұлы атындағы Тіл білімі институты Қолданбалы лингвистика бөлімінің бас ғылыми қызметкері, филология ғылымының докторы,  профессор Айман Жаңабекова, А. Байтұрсынұлы атындағы Тіл білімі институты Қолданбалы лингвистика бөлімінің меңгерушісі, филология ғылымының докторы

4329 рет

көрсетілді

86

пікір

Біздің Telegram каналына жазылыңыз

алдымен сізді қызықтыратын барлық жаңалықтарды біліңіз

ANA TILI №14

11 Сәуір, 2024

Жүктеу (PDF)

Редактор блогы

Ерлан Жүніс

«Ана тілі» газетінің Бас редакторы