Možemo li ČetGPT da naučimo da bolje govori srpski jezik i kako

AI Jelena Andrić 15. feb 2024. 07:00
featured image

15. feb 2024. 07:00

Upotreba i primena veštačke inteligencije u svakodnevnom životu, ali i mnogim granama i oblastima privrede trenutno je jedna od najaktuelnijih tema.

I direktorka Međunarodnog monetarnog fonda (MMF) Kristalina Georgijeva ukazala je nedavno da će AI uticati na skoro 40 odsto poslova širom sveta, zamenjujući neke i dopunjujući druge, te da je potrebna pažljivo balansirana politika da bi se iskoristio njen potencijal. U najekstremnijim slučajevima, moglo bi se očekivati da će neki od poslova nestati.

Veštačka inteligencija može pomoći manje iskusnim radnicima da brže povećaju svoju produktivnost, ali i mlađim radnicima možda će biti lakše da se prilagode i tako dobiju veće plate, dok bi stariji radnici mogli da imaju problem da se prilagode.

Srpski nije dovoljno prisutan u novoj tehnologiji

I dok domaća, ali i svetska javnost, najviše polemišu oko toga da li bi neki poslovi mogli da budu ugroženi usled primene AI, važna tema koja se nameće je i jezik. Stručnjaci u Srbiji već neko vreme ukazuju na to da bi među prvim žrtvama razvoja veštačke inteligencije mogao da bude srpski jezik, budući da gotovo da nije prisutan u novoj tehnologiji.

Čak i kada ga ima, kvalitet nije potpun.

Šta su glavni razlozi i kako da se reši ovaj problem razgovarali smo sa Slobodanom Markovićem, savetnikom za digitalne tehnologije u UNDP (Program Ujedinjenih nacija za razvoj).

Marković najpre objašnjava da smo sa ovakvim problemom suočeni zato što modeli veštačke inteligencije koji služe za obradu jezika – pretvaranje govora u tekst, razne obrade teksta, sinteza govora, uglavnom nemaju podršku za srpski jezik, a i kada je imaju, kao što je to u slučaju ČetGPT-a, onda je ta podrška na elementarnom nivou.

Jedan od razloga je, kako objašnjava što ovi modeli uče da razumeju jezik na ogromnim količinama podataka, kojih za srpski jezik nema dovoljno.

Foto: UNDP

Drugi problem je raznovrsnost, budući da ono što je od sadržaja dostupno na internetu uglavnom je svakodnevni, konverzacioni, medijski ili marketinški jezik.

Stručne oblasti kao što su pravo, medicina, ekonomija, istorija nisu u dovoljnoj meri zastupljene, pa su mogućnosti modela da razumeju i obrađuju srpski u ovim oblastima sužene, pojašnjava Marković.

Ovo nije veliki problem za neku svakodnevnu, ličnu upotrebu, ali za upotrebu ovih modela u poslovne svrhe, visok kvalitet, tačnost i konzistentnost modela od presudnog su značaja.

„Takođe, modele poput ČetGPT u nekim slučajevima nije praktično koristiti, kao što su na primer situacije koje zahtevaju obradu miliona dokumenata, ili garantovanje privatnosti i tajnosti, odnosno rad bez povezivanja sa internetom. U tim slučajevima biće neophodno korišćenje otvorenih i specijalizovanih modela, za čije obučavanje su opet potrebni kvalitetni podaci“, kaže Marković.

Potiskivanje srpskog jezika

Ukazuje da su tri nivoa problema sa podacima – njihova količina, kvalitet i dostupnost.

Za početak, nemamo dovoljno velike količine sirovog, ali dovoljno raznovrsnog teksta na srpskom. Drugo, imamo malo kvalitetnih, posebno sačinjenih, manjih skupova podataka koji služe za detaljno prilagođavanje modela (fine tuning) kako bi davali bolje odgovore za određenu namene u stručnim jezičkim oblastima (na primer odgovaranje na pitanja, skraćivanje teksta, parafraziranje teksta, klasifikacija teksta, određivanje sentimenta itd. „Konačno, fale nam i standardizovani testovi koji bi omogućili da u različitim oblastima i po raznim parametrima odredimo koji model „radi“ neki posao bolje od drugih“, ističe.

Sve to na šta ukazuje Marković potrebno nam je ne samo za ekavski, nego i za ijekavski izgovor srpskog jezika. Javna i široka dostupnost srpskog jezika pod permisivnim licencama (koje omogućavaju upotrebu podataka u bilo koje, pa i komercijalne svrhe) omogućilo bi uslove za razvoj i prilagođavanje modela koji dosta kvalitetnije koriste srpski jezik za poslovnu primenu.

Marković je i ranije ukazivao da imamo problem sa pozicijom srpskog jezika i da naša deca sa Siri ili Gugl asistentima pričaju na engleskom, a kako dodaje, primera ima još.

„Na primer, u oblasti virtualne ili unapređene stvarnosti (VR/AR) govor postaje glavni način za komunikaciju čoveka i mašine. Ako srpski tu ne bude podržan, moraćemo da koristimo jezik koji jeste podržan. Ne kažem da će naš jezik da nestane, ali dugoročno svakako rizikujemo njegovo potiskivanje iz sve više domena svakodnevnog života“, dodaje.

Problem je, ističe, u tome što smo mi mala jezička zajednica, malo i slabo tržište, pa smo globalnim IT gigantima vrlo nisko na spisku prioriteta.

„Proći će mnogo vremena pre nego što neko od njih odluči da svoje modele veštačke inteligencije suštinski prilagodi srpskom jeziku, našem kulturnom kontekstu i sektorskim specifičnostima“, kaže Marković.

Dodaje da kada su jezičke tehnologije u pitanju, dosta toga zavisi od nas, ako želimo brže i u većoj meri da ostvarimo korist od ove nove generacije veštačke inteligencije.

Sagovornik Forbes Srbija ističe da ne možemo da prepustimo stvar slučaju, već sami treba da obezbedimo podatke i potrudimo se da domaće IT firme i startapi imaju što kvalitetnije jezičke tehnologije, koje će im omogućiti da krajnjim korisnicima – firmama, državi i građanima – ponude kvalitetna rešenja koja koriste srpski jezik.

Ovaj poduhvat bi pre šest ili sedam godina bio vrlo skup i dugotrajan, ali tehnologija je sada napredovala do nivoa kada može da se krene od postojećih modela i da se oni prilagode za srpski mnogo brže i jeftinije nego ikada pre.

Pomaci u rukama entuzijasta

Marković kaže i da se u poslednje vreme pojavljuje sve više entuzijasta koji pokušavaju na tom planu nešto da urade:

„Tu je, na primer, Mihailo Škorić, koji je ove godine napravio GPT2 model za srpski, Nemanja Petrović, koji je objavio novu verziju BERT modela obučavanog na pravnim tekstovima, Andrija Sagić koji prilagođava srpskom Whisper i druge modele za pretvaranje govora u tekst ili Bogdan Brkić i Ognjen Tomić koji pokušavaju da obezbede slobodno dostupan model za sintezu srpskog govora. Konačno, tu je i herojski poduhvat Alekse Gordića, koji je samostalno obezbedio procesorsku snagu i obučio najveći generativni model za srpski – YugoGPT sa sedam milijardi parametara. Ovi primeri pokazuju da u domaćoj zajednici ima znanja i entuzijazma“.

Naime, generativni model za srpski YugoGPT lansiran je krajem decembra, a samo za prva 24 sata uspeo je da prikupi 1.250 registrovanih korisnika. Ima veoma sličan interfejs kao i ČetGPT, s tim što iza njega stoji jezički model treniran specifično na srpskim, bosanskim, crnogorskim i hrvatskim podacima.

Aleksa Gordić, softverski inženjer koji stoji iza ovog projekta objavio je tada na Tviteru da je YugoGPT po performansama nadmašio LLaMA 2 (Meta AI laboratorija) i Mistral za srpski, bosanski, hrvatski i crnogorski jezik.

Foto: Twitter/gordic_aleksa/

Napisao je da je „bio frustriran kada je video kako je situacija loša čim napustite engleski NLP prostor“ i da već radi na drugoj iteraciji koja će biti znatno bolja.

Slobodan Marković se nada da će se u Strategiji razvoja veštačke inteligencije za period posle 2025. posvetiti pažnja i jezičkim tehnologijama za srpski.

Kaže da su u Strategiji razvoja veštačke inteligencije do 2025. ipak napravljeni značajni iskoraci u mnogim segmentima.

„Na primer, u Državnom data centru u Kragujevcu uspostavljena je nacionalna platforma za rad na AI modelima, osnovan je Institut za veštačku inteligenciju, donete su i etičke smernice za razvoj AI sistema. Ova oblast se jako brzo menja i zbog toga je važno što se radi nova strategija, kako bi se pratile brze promene u ovoj oblasti“, ističe.

Foto: Shutterstock/ Postmodern Studio

Kada je reč o primeni AI u ostalim oblastima i uticaju na neke poslove, Marković kaže da će AI imati široku primenu u svim oblastima koje svakodnevno koriste velike količine teksta i govora, kako u strukturiranoj, tako i nestrukturiranoj formi. To je širok spektar oblasti – javna uprava, zdravstvo, pravosuđe, finansije, mediji, svakodnevno poslovanje…

Drugo je pitanje da li će sve to, u kojoj meri i kojom dinamikom, uticati na današnje poslove:

„Stvari će se verovatno značajno razlikovati od oblasti do oblasti. U najvećem broju slučajeva AI će automatizovati repetitivne poslove ili poslove gde je cena ljudske greške velika. Omogućiće veću produktivnost za veliki deo postojećih poslova. Manji broj poslova biće potpuno zamenjen primenom AI. Međutim, AI će otvoriti i neke potpuno nove poslove, što je bila situacija koja je obeležila i sve ranije slične tehnološke proboje. Bitno pitanje za nas kao zajednicu jeste kako se mi pozicioniramo u ovim novim okolnostima, kako možemo da popravimo našu poziciju, upravljamo rizicima i ostvarimo najveću moguću korist“, kaže Marković.

Malo ulažemo

Za razliku od Srbije, koja po Markovićevim rečima ne ulaže u razvoj jezičkih tehnologija, male jezičke zajednice dosta ulažu u ovu oblast.

Estonija i Letonija poslednjih 10 godina ulažu u ovakve programe. U poslednjih četiri, pet godina, takve programe pokrenuli su Izrael, Danska, Island. Prošle godine su se u taj poduhvat uključile i Švedska i Holandija.

Primera radi, samo tokom proteklih nekoliko godina, Danska sa 5,8 miliona stanovnika uložila je četiri milona evra, Island sa 360.000 stanovnika 13 miliona evra, a Slovenija više od četiri miliona evra.