Institut za hrvatski jezik i jezikoslovlje te Filozofski fakultet Sveučilišta u Zagrebu ovoga su desetljeća prerasli u nezaobilazne nacionalne centre za razvitak jezičnih tehnologija i našu besplatno dostupnu digitalnu jezičnu riznicu s rječnicima, gramatikama i pravopisnim priručnicima.
Inovativne su jezične tehnologije (JT) posrednici koji će omogućiti hrvatskim građanima sudjelovanje u glavnim društvenim i gospodarskim tijekovima europskog i globalnog društva znanja. Sredinom ove godine, nadamo se od 1. srpnja, hrvatski će jezik postati 24. službeni jezik Europske unije. Danas se dvadesetak europskih jezika, kojima se služi manje od 10 milijuna govornika, poput hrvatskoga nalaze u opasnosti od digitalnog izumiranja, zbog svoje nedovoljne zastupljenosti on-line i slabe razvijenosti jezičnih resursa, odnosno izvora jezičnih tekstova pohranjenih u obliku elektroničkoga teksta, kao i jezičnih alata tj. aplikacija za služenje postojećim digitalnim resursima. Kako se pred nama otvaraju ogromne mogućnosti na regionalnim tržištima, koje još nisu iskorištene zbog jezičnih prepreka – izazove JT valja staviti na listu nacionalnih prioriteta kao što je primjerice prometna infrastruktura. Žarko bismo željeli, unatoč ekonomskoj krizi, izići iz kruga onih građana Europske unije koji će se naći socijalno i ekonomski zakinuti zbog toga što govore samo svoj materinski jezik. Višejezične su JT postale kanali za trenutačnu, jednostavnu i jeftinu komunikaciju i interakciju, zaobilazeći jezične barijere poput besplatne usluge prevođenja Google Translate.
Institut za hrvatski jezik i jezikoslovlje (www.ihjj.hr) ovoga desetljeća prerasta u vodeći nacionalni centar za razvitak naših jezičnih tehnologija i besplatno dostupnu digitalnu jezičnu riznicu za hrvatski jezik s rječnicima, gramatikama i pravopisnim priručnicima. Dominaciju izmjenjuje s lingvističkim računalnim stručnjacima s Filozofskoga fakulteta Sveučilišta u Zagrebu, znanog i po pionirskim pothvatima uvođenja jezičnotehnoloških inovacija za hrvatski jezik u isto vrijeme kad je prije 42 godine Ralph Gorin sa Stanford Universityja plasirao prvu jezičnu provjeru računalom - English Spell Check. U Zavodu za lingvistiku FF Sveučilišta u Zagrebu tako je Željko Bujas sastavio prvi hrvatski računalni korpus. Dominaciju će u računalnoj lingvistici ta obrazovna ustanova održati tijekom idućih par desetljeća kada će od 1980-ih biti izvršena računalna obradba starih hrvatskih pisaca. Sastavljanje Jednomilijunskoga korpusa hrvatskoga književnoga jezika započelo je 1976. pod vodstvom akademika Milana Moguša. Sastavljanje Hrvatskoga nacionalnoga korpusa (http://hnk.ffzg.hr), koji trenutačno obaseže 101,3 milijuna riječi, počelo je 1998. pod vodstvom istraživača dr. sc. Marka Tadića koji se u međuvremenu profilirao u vodećeg stručnjaka računalne i korpusne lingvistike u Hrvatskoj. Aktualni najveći hrvatski korpus hrWaC sastavljen je na istome fakultetu 2010., a sadrži ukupno 1,3 milijarde riječi - pojavnica, skupljenih s hr internetske domene. Početkom XXI. stoljeća na istome se fakultetu, uz popularni internetski portal za hrvatski jezik (http://www.hrvatskijezik.eu), pod vodstvom prof. dr. sc. Damira Borasa odvija digitalizacija starih hrvatskih jedno- i višejezičnih rječnika koji su dostupni na Portalu hrvatske rječničke baštine (http://crodip.ffzg.hr).
S druge strane pri Institutu za hrvatski jezik i jezikoslovlje 2004. krenulo je sastavljanje opsežnoga korpusa pod nazivom Hrvatska jezična riznica http://riznica.ihjj.hr), koja uključuje pisane tekstove od XI. stoljeća do suvremenoga doba. Riznica je podijeljena u tri glavna korpusa (starohrvatski, srednjehrvatski i suvremeni hrvatski) gdje se za prva dva rješavaju ključni problemi dijakronijskih korpusa što u hrvatskome slučaju znači, transliteracija s tri različita pisma (glagoljice, ćirilice i latinice), rješavanje nestandardnih pravopisnih rješenja kao i individualne varijacije u uporabi pojedinih pismena, pojasnio nam je ravnatelj Instituta dr. sc. Željko Jozić. Institut održava i praktičan on-line jezični savjetnik (http://savjetnik.ihjj.hr). Većinu istraživačkih aktivnosti na području računalnoga i korpusnoga jezikoslovlja te jezičnih tehnologija u RH podupire Ministarstvo znanosti, obrazovanja i sporta kroz projekte povezane s jezičnim tehnologijama te Ministarstvo kulture kroz projekte digitalizacije kulturne baštine – za razliku od komercijalnih tržišta JT kakvo su američko ili neka azijska.
Iz istoga proračunskog izvora prije pet godina započeti su pojedini vitalni projekti vezani uz razvitak hrvatskih jezičnih resursa na Filozofskome fakultetu. To su, uz ostale programe, Računalnolingvistički modeli i jezične tehnologije za hrvatski jezik (http://rmjt.ffzg.hr) gdje se sastavlja i održava čitav niz jezičnih resursa i alata kao što su Hrvatski nacionalni korpus, Hrvatsko-engleski paralelni korpus, Hrvatski morfološki leksikon, Hrvatska ovisnosna banka stabala (http://hobs.ffzg.hr) i slično. Navedeni programi uključuju digitalizaciju skupljenih jezičnih podataka i izravno uvećavaju broj dostupnih jezičnih resursa za hrvatski jezik.
Nove prilike i JT otvaraju internetsko poglavlje u očuvanju hrvatskoga jezika među višemilijunskom poliglotskom hrvatskom dijasporom od Aljaske do Ognjene zemlje, juga Afrike te Australije i Novoga Zelanda. Mrežni pristup jezičnim resursima za hrvatski jezik izvor je nade da će broj govornika našega jezika u iseljeništvu rasti.
Napisala: Vesna Kukavica, Hrvatska matica iseljenika