Kineska kompanija Alibaba predstavila je svoju prvu porodicu modela za otelotvorenu veštačku inteligenciju, koja povezuje velike jezičke modele sa stvarnim radnjama robota u fizičkom svetu.
Paket pod nazivom Qwen-Robot razvijen je u laboratoriji Tongji Lab kompanije Alibaba i trenutno se testira sa odabranim poslovnim korisnicima Alibaba Cloud-a.
Paket čine tri modela specijalizovana za navigaciju, manipulaciju predmetima i modelovanje okruženja za robote koji rade u stvarnom svetu.
Iz Alibabe navode da ovi modeli omogućavaju mašinama da opažaju, razmišljaju i komuniciraju sa fizičkim okruženjem, čime se kompanija priključuje globalnoj trci za razvoj otelotvorene veštačke inteligencije koja prevazilazi klasične četbotove.
Kada se razmišljanje spoji sa robotima
Alibaba tvrdi da je njena porodica AI modela Qwen postala veoma uspešna u razumevanju fizičkog sveta. Modeli mogu da prepoznaju objekte, razumeju prostorne odnose, prate složena vizuelna uputstva i zaključuju na osnovu stvarnog okruženja.
Na primer, model može da razume naredbu poput: „Idi u kuhinju, pronađi crvenu šolju, uzmi je i stavi na policu.“
Međutim, razumevanje zadatka nije isto što i njegovo izvršavanje. Dok model za obradu slike i jezika može da objasni potrebne korake, on ne može direktno da upravlja pokretima robota.
Najveći izazov je povezivanje ljudskog jezika i vizuelnog razumevanja sa motoričkim radnjama koje su potrebne za interakciju sa fizičkim svetom.
Problem je dodatno otežan činjenicom da se podaci za obuku robota značajno razlikuju od podataka prikupljenih sa interneta. Informacije iz navigacionih sistema, robotskih ruku, vozila i kamera dolaze u različitim formatima i veoma su skupe za prikupljanje. Jednostavno objedinjavanje svih tih podataka često stvara konflikte umesto boljih rezultata.
Kako bi rešila taj problem, Alibaba je razvila paket Qwen-Robot koji uključuje tri specijalizovana modela.
Qwen-RobotNav namenjen je kretanju i navigaciji. Pomaže robotima da prate instrukcije, pronalaze zadate lokacije, prate ciljeve i podržavaju autonomnu vožnju.
Qwen-RobotManip fokusiran je na fizičku interakciju. Omogućava robotima da hvataju, pomeraju i manipulišu predmetima koristeći veliki skup podataka prikupljen sa različitih robotskih sistema.
Qwen-RobotWorld služi kao model sveta koji predviđa kako bi se okruženje moglo menjati i pomaže robotima da procene moguće posledice svojih postupaka.
Zajedno, ova tri modela imaju za cilj da robotima omoguće razumevanje instrukcija, interakciju sa predmetima, snalaženje u prostoru i donošenje odluka u stvarnom svetu.
Razvoj fizičke veštačke inteligencije se ubrzava
Alibaba je demonstrirala Qwen-RobotNav na četvoronožnom robotu Unitree Go2 koji koristi NVIDIA Jetson Thor hardver i samo jednu kameru niske rezolucije.
Robot je uspešno prošao kroz nepoznati stan, prateći glasovne komande kroz više prostorija bez unapred učitanih mapa, uz kašnjenje u obradi od svega 196 milisekundi.
Kompanija tvrdi da je Qwen-RobotManip treniran na više od 38.000 sati otvorenih podataka koji obuhvataju rukovanje predmetima i različite zadatke fizičke interakcije.
Prema navodima Alibabe, model je nedavno ostvario najbolji rezultat u kategoriji univerzalnih robota na testiranju RoboChallenge, sa ocenom procesa od 59,83 i stopom uspešno izvršenih zadataka od 45 odsto.
Kompanija je predstavila i Qwen-RobotClaw, okvir koji omogućava Qwen modelima da koriste Qwen-Robot kao alat za interakciju sa fizičkim svetom.
U jednoj demonstraciji, AI agent je samostalno tražio toalet, uočio znak da nije u funkciji i bez ljudske pomoći pronašao alternativnu lokaciju.
Alibaba je takođe objavila otvoreni kod platforme Chat2Robot, koja radi u internet pregledaču i namenjena je testiranju interakcija sa otelotvorenom veštačkom inteligencijom.
Kina ubrzava trku u razvoju fizičke veštačke inteligencije
Dok globalna konkurencija u oblasti otelotvorene veštačke inteligencije postaje sve intenzivnija, Alibaba je proširila svoje ambicije sa jezičkih i multimodalnih AI sistema na razvoj robota sposobnih da razumeju i deluju u fizičkom svetu.
Ovaj potez dolazi u trenutku kada se trka u razvoju fizičke veštačke inteligencije ubrzava širom sveta.
U Sjedinjenim Američkim Državama Gugl DipMajnd razvija Gemini Robotics, dok Nvidia širi svoj robotski ekosistem kroz platforme Cosmos, Isaac i GR00T.
Istovremeno, startapi poput Physical Intelligence, Skild AI i Figure AI rade na razvoju univerzalne robotske inteligencije, prenosi South China Morning Post.
Kina dodatno jača svoju poziciju kombinujući proizvodne kapacitete sa sve većim ulaganjima u AI softver za autonomno donošenje odluka.
U razvoju otelotvorene veštačke inteligencije aktivno učestvuju kompanije Alibaba, Tencent, Unitree, AgiBot, UBTech, Galbot, Spirit AI, GigaAI, Xpeng i Xiaomi.