Vještačka inteligencija može sama da nauči da vara i laže
Ilustracija
Vještačka inteligencija može da nauči da laže i vara, i to je ozbiljan rizik koji zahtijeva regulatorne i zakonske mjere kao garanciju da će ostati korisna tehnologija, umjesto da postane prijetnja za ljudsko znanje i institucije, navodi se u novoj studiji.
Sistemi vještačke inteligencije (AI) su, kako se navodi u studiji objavljenoj u časopisu Paterns (Patterns), već naučili da varaju putem tehnika kao što su manipulacija, ulagivanje ili prevare na bezbjednosnim testovima, upozorili su naučnici sa Masačusetskog Instituta za tenologiju (MIT).
Brzi razvoj sposobnosti AI sistema i Velikih jezičkih modela (LLM) predstavlja ozbiljan rizik, počevši od kratkoročnih rizika i izbornih prevara, pa do samog gubitka kontrole nad tim sistemima, navodi se u istraživanju.
Naučnici su kao primjer sistema vještačke inteligencije sposobne za manipulaciju naveli AI sistem Cicero, Fejsbukovog vlasnika, koncerna Meta.
Sistem Cicero u mrežnoj igri Diplomatija može da igra protiv ljudi, a naučnici su utvdili da je od Mete naučio da postane „majstor obmane“, uprkos suprotnim tvrdnjama kompanije.
U igri, koja simulira odnos snaga u vrijeme Prvog svetskog rata i zahtijeva sklapanje savezništava, Cicero, uprkos navodnim instrukcijama da bude iskren i ljudima od pomoći, „ne samo što je bio izdajnik, nego je i unaprijed planirao prevaru i sklapanje savezništava kako bi te saigrače obmanuo da budu nespremni za napad“.
I model AI za igranje pokera Pluribus, takođe koncerna Meta, uspješno je blefirao svoje ljudske saigrače i navodio ih na predaju.
Jedan od izrazitijih primjera je sada već poznati AI četbot chatGPT, kompanije OpenaAI, koji je prevarom naveo ljudskog sagovornika da za njega riješi bezbjednosnu provjeru kojom korisnici nekog sajta dokazuju da nisu botovi, takozvani kapča (Captcha).
ChatGPT je od autora studije dobio zadatak da nagovori čoveka da za njega rešu tu provjeru, ali mu nije sugerisano da laže. Kada je sagovornik četbota, ne znajući o čemu je riječ, pitao za njegov identitet, AI sistem se na svoju ruku predstavio kao slabovida osoba koja ne može da vidi slike na provjeri Captcha.
Primjeri skrivanje pravih namera ustanovljeni su i kod AI sistema kreiranih za vođenje ekonomskih pregovora.
Takođe, sistemi za podržano učenje iz ljudskih povratnih informacija (RLHF), što znači da sistem AI prilikom mašinskog učenja zavisi i od ljudske povratne ocjene, naučili su da lažu o svojoj efikasnosti i učinku.
Autori studije upozorili su da su današnji sistemi AI i Veliki jezički model sposobni da veoma vješto argumentiraju, a i da ako osjete potrebu pribjegnu lažima i obmanama.
„Kada AI nauči sposobnost obmane, zlonamjerni akteri, koji namjerno žele da naprave štetu, mogu efikasnije da je primijene“, upozorili su naučnici sa MIT, dodajući da uz pomoć AI prevare mogu da postanu prilagođene individualnim ciljevima, masovne ali i oružje u politici i medijima.
U istraživanju se ocjenjuje i da države do sada nisu preduzele prave mjere kako bi preduprijedile tu opasnost, iako su, kao u slučaju zakona EU o vještačkoj inteligenciji, počeli da je shvataju ozbiljno.
Agencije