Antropik i OpenAI plaćaju ovaj startap da testira koliko AI može da bude zla

Inovacije Forbes 24. sep 2025. 17:00
featured image

Laboratorije za naprednu veštačku inteligenciju oslanjaju se na mali izraelski startap kako bi kroz simulacije testirale sposobnost svojih AI sistema za zlonamerne hakerske aktivnosti.

24. sep 2025. 17:00

U julu je suosnivač OpenAI Sem Altman podigao uzbunu zbog mogućnosti da sajber-kriminalci koriste veštačku inteligenciju za lažno predstavljanje i izazivanje „krize prevara“. Brzo su usledili mimovi, koji su svi isticali očiglednu ironiju: ČetGPT je delimično odgovoran za „čudovište“ na koje je Altman upozoravao.

Istovremeno, OpenAI je angažovao firmu po imenu Patern Labs da testira otpornost svojih AI modela pre javnog lansiranja, u cilju otkrivanja i ispravljanja ranjivosti koje bi hakeri mogli da iskoriste za krađu korisničkih podataka ili da ih upotrebe kao oružje za nanošenje štete drugima. Od 2023. godine, startap sarađuje sa industrijskim gigantima kao što su Anthropic i Google DeepMind tako što postavlja AI modele u simulirana okruženja i proverava kako reaguju na zlonamerne zadatke, poput zahteva da pronađu i ukradu osetljive podatke iz lažne IT mreže. Startap, koji menja ime u Iregular, objavio da je prikupio 80 miliona dolara, čime je njegova vrednost dostigla 450 miliona dolara.

Zloupotreba AI

Zloupotreba AI je problem na nivou cele industrije. Samo prošlog meseca, Antropik je upozorio da je Klod korišćen u sajber-napadima u stvarnom svetu. Pomagao je u pisanju malvera i fišing mejlova. U maju je FBI upozorio na AI-generisane govorne poruke koje su se predstavljale kao da dolaze od visokih državnih zvaničnika, u pokušajima fišinga pravih američkih službenika. Kompanija Iregular, sa sedištem u San Francisku, ubire plodove zbog toga što je na vreme prepoznala problem. Izvršni direktor i suosnivač Dan Lahav rekao je za Forbes da je firma brzo postala profitabilna. Ostvarila je „nekoliko miliona dolara“ prihoda u prvoj godini. Ali, nije želeo da otkrije tačne finansijske podatke.

„Veoma je malo ljudi koji mogu da rade ono što mi radimo“, rekao je Lahav. Ali je svestan da će, kako modeli postaju složeniji, izazovi takozvanog red timinga — testiranja rizika kroz stres probe — samo rasti. Lahav kaže da planira da „ugradi mere ublažavanja i odbrambene mehanizme koji će biti relevantni u budućnosti“, kada stignu napredniji AI modeli. Uključujući i ono što neki stručnjaci nazivaju veštačkom opštom inteligencijom (AGI). Ona bi mogla da prevaziđe ljudsku kogniciju. „Očigledno, ovi problemi će biti mnogo izraženiji u eri superinteligencije“, rekao je on.

Neobičan tim

Lahav i suosnivač Omer Nevo, koji je u Guglu radio na nadzoru i predviđanju požara pre nego što je pokrenuo Iregular, osnovali su kompaniju sredinom 2023. Baš u trenutku kada su alati poput ČetGPT-a postali masovno popularni. Upoznali su se na debatnim takmičenjima. Tu su obojica bili svetski šampioni sa Univerziteta u Tel Avivu. Nakon toga je Lahav prešao u IBM-ovu AI laboratoriju. Nevo je osnovao NeoWize, startap iz Y Combinator-a koji je razvijao AI alate za e-trgovinu. Nevo je danas glavni tehnički direktor kompanije Iregular.

Investitori iz Sekvoja fonda, Din Majer i Šon Megvajer, rekli su da su ih privukli nekonvencionalni osnivači i njihov tim. Lahav ih je nazvao „irregulars“ (nepravilni). „Zamislite najizrazitije autsajdere iz oblasti AI, hardkor istraživače bezbednosti — odatle i potiče ime“, rekao je Majer.
„Ako mi je hobi gledanje američkog fudbala ili fudbala, možda ovo nije mesto za mene“, rekao je Megvajer. „Ali ako mi je hobi pravljenje katana (samurajskog mača) i hakovanje robota, onda su ovo možda moji ljudi“.

Iregular planira da upotrebi novi kapital za širenje poslovanja izvan laboratorija za napredni AI. I da ponudi usluge svim kompanijama kojima je potrebno da znaju kako se alati koje njihovi zaposleni koriste mogu okrenuti protiv njih. „Iskustvo i stratešku prednost rada u frontier laboratorijama stalno prenosimo. Pretvaramo ih u proizvode koji će biti relevantni za sve ostale nizvodno“, rekao je Lahav. Jednog dana, dodaje, to će značiti da AI agenti sami kreiraju odbrane onog trenutka kada prepoznaju novu vrstu napada.

AI
Shutterstock/Jinning Li

AI razmišlja kao haker

Prošlog meseca, Iregular je otkrio da testira OpenAI GPT-5 model kako bi utvrdio da li može da se koristi za ofanzivne sajber-operacije. Izložili su GPT-5 bot simuliranoj mreži i dali mu ograničene informacije o tome kako da probije odbranu. GPT-5 je samostalno skenirao mrežu i osmislio plan za hakovanje. Međutim, Iregular je utvrdio da, iako GPT-5 pokazuje „sofisticirano rezonovanje i izvršavanje… još nije pouzdan alat za ofanzivnu sajber-bezbednost“, stoji u njihovom izveštaju. Ipak, za Neva je bilo jasno da je AI „definitivno imao intuiciju gde treba da gleda“, kao haker.

Nevo i Lahav otkrili su i neobična ponašanja AI, čak i kada nisu zlonamerna. U jednoj nedavnoj simulaciji, dva AI modela imala su zadatak da zajednički analiziraju lažne IT sisteme. Nakon nekog vremena, jedan AI je zaključio da zaslužuje pauzu, pa je uzeo odmor. Zatim je ubedio i drugi model da učini isto. Lahav je rekao da je to bila nasumična odluka. Ali, proizašla iz treninga modela na osnovu onoga što ljudi objavljuju na internetu. Očigledna „lenjost“ AI bila je samo odraz nas samih.

„Bilo je smešno“, rekao je Lahav. „Ali je očigledno da to predstavlja novu vrstu problema kada se mašinama poveravaju sve autonomniji i kritični zadaci“.

Tomas Bruster, novinar Forbes