AI sistemi su naučili kako da lažu i varaju
Da li bi veštačka inteligencija lagala? Da li bi vas namerno prevarila?
Odgovor je da!
Sistemi veštačke inteligencije poznati kao veliki govorni modeli (LLM) mogu da ispolje „makijavelizam“ ili namernu i amoralnu manipulativnost, što onda može dovesti do obmanjujućeg ponašanja, prema nalazima nove studije.
ZeroHedge izveštava: Studija koju je napisao nemački etičar za veštačku inteligenciju Thilo Hagendorff sa Univerziteta u Štutgartu, a objavljena u PNAS-u, primećuje da je OpenAI-jev GPT-4 pokazao takvo ponašanje u 99,2% jednostavnih test scenarija. Hagendorff je kvalifikovao različite „maladaptivne“ osobine u 10 različitih LLM-ova, od kojih je većina unutar GPT porodice, prema Futurizmu.
U drugoj studiji objavljenoj u Patterns-u otkriveno je da Metin LLM nije imao problema da laže kako bi prestigao svoje ljudske konkurente.
Proglašen kao šampion na ljudskom nivou u političkoj strateškoj igri „Diplomatija“, Metin Ciceronov model bio je predmet studije Patterns. Kao što je različita istraživačka grupa — sastavljena od fizičara, filozofa i dva stručnjaka za bezbednost AI — otkrila, LLM je bio ispred svojih ljudskih konkurenata, jednom rečju, prevarant.
DIREKTOR PFIZER-a priznaje da je COVID bio samo proba za ono što tek sledi https://t.co/nfFZ33SEkX
— Nulta Tačka (@NultaTackaSrb) June 22, 2024
Predvođen postdoktorskim istraživačem Piterom Parkom sa Masačusetskog instituta za tehnologiju, taj rad je otkrio da Ciceron ne samo da se ističe u obmanama, već izgleda da je naučio kako da laže što se više vežba – stanje stvari „mnogo bliže eksplicitnoj manipulaciji“ nego, recimo, AI sklonost halucinacijama, u kojoj modeli samouvereno daju pogrešne odgovore slučajno. -Futurizam
Dok Hagendorff sugeriše da je obmana i laž LLM ipak naivnija zbog nesposobnosti veštačke inteligencije da ima ljudsku „nameru“, studija Patterns proziva LLM da je prekršio svoje obećanje da nikada neće „namerno zabiti nož u leđa“ svojim saveznicima – jer se „uključuje u obmanu sa predumišljajem, razbija ugovore na koje je pristao, i iznosi čiste neistine.“
Kao što je Park objasnio u saopštenju za štampu, „Otkrili smo da je Metina veštačka inteligencija naučila da bude majstor prevare.
„Dok je Meta uspela da obuči svoju veštačku inteligenciju da pobedi u igri diplomatije, Meta nije uspela da obuči svoju veštačku inteligenciju da pošteno pobedi.“
Meta je odgovorio na izjavu NY Posta, rekavši da su „modeli koji su naši istraživači napravili obučeni isključivo za igru Diplomatija“.
Poznata po tome što izričito dozvoljava laganje, Diplomatija je u šali nazvana igrom koja završava prijateljstvo jer podstiče navlačenje protivnika, a ako je Ciceron bio obučen isključivo na osnovu njegovog pravilnika, onda je u suštini bio obučen da laže.
Čitajući između redova, nijedna studija nije pokazala da AI modeli lažu po sopstvenoj volji, već to čine zato što su ili obučeni ili su im skinute zabrane da to rade.