Naučnici koriste veštačku inteligenciju da pretvore misli u slike sa 80% tačnosti
Veštačka inteligencija može da kreira slike zasnovane na tekstualnim uputstvima, ali naučnici su otkrili galeriju slika koje tehnologija proizvodi čitanjem moždane aktivnosti.
Novi algoritam sa veštačkom inteligencijom rekonstruisao je oko 1.000 slika, uključujući plišanog medveda i avion, na osnovu skeniranja mozga sa 80 odsto preciznosti.
Pridružite nam se – https://t.me/nultatacka
Istraživači sa Univerziteta u Osaki koristili su popularni model stabilne difuzije, uključen u OpenAI-jev DALL-E 2, koji može kreirati bilo koju sliku na osnovu unosa teksta.
Tim je pokazao učesnicima pojedinačne setove slika i prikupio fMRI (funkcionalna magnetna rezonanca) skeniranja, koje je AI potom dekodirao.
„Pokazujemo da naš metod može da rekonstruiše slike visoke rezolucije sa visokom semantičkom vernošću iz aktivnosti ljudskog mozga“, rekao je tim u studiji objavljenoj u bioRxiv-u.
„Za razliku od prethodnih studija rekonstrukcije slike, naš metod ne zahteva obuku ili fino podešavanje složenih modela dubokog učenja“.
Algoritam izvlači informacije iz delova mozga koji su uključeni u percepciju slike, kao što su okcipitalni i temporalni režnjevi, prema Yu Takagiju, koji je vodio istraživanje.
Tim je koristio fMRI jer otkriva promene protoka krvi u aktivnim područjima mozga, prenosi Science.org.
👉 Bajden okrivljuje za miniranje Severnog toka „odmetnute ukrajinske mornaričke foke“… Ali Ukrajina nema mornaricu https://t.co/2FjABlME55
— Nulta Tačka (@ProdukcijaNT) March 9, 2023
FMRI može da otkrije molekule kiseonika, tako da skeneri mogu da vide gde u mozgu naši neuroni – moždane nervne ćelije – rade najteže (i crpe većinu kiseonika) dok imamo misli ili emocije.
U ovoj studiji su korišćena ukupno četiri učesnika, od kojih je svaki gledao skup od 10.000 slika.
AI počinje da generiše slike kao šum sličan televizijskoj statici, koji se zatim zamenjuje prepoznatljivim karakteristikama koje algoritam vidi u aktivnosti pozivajući se na slike na kojima je obučen i pronalazeći podudaranje.
„Pokazujemo da naš jednostavan okvir može da rekonstruiše slike visoke rezolucije (512 x 512) iz moždane aktivnosti sa visokom semantičkom vernošću“, navodi se u studiji.
„Mi kvantitativno tumačimo svaku komponentu LDM-a iz perspektive neuronauke tako što mapiramo specifične komponente u različite regione mozga.
Predstavljamo objektivno tumačenje kako proces konverzije teksta u sliku koji implementira LDM [model latentne difuzije] uključuje semantičke informacije izražene uslovnim tekstom dok istovremeno održava izgled originalne slike.