OpenAI o1 model vještačke inteligencije uhvaćen u laži

Stefan Milosavljević аватар

Nezavisna organizacija za istraživanje sigurnosti umjetne inteligencije Apollo otkrila je zabrinjavajuće ponašanje u najnovijem OpenAI o1 modelu.

Tim Apolla je identificirao novi oblik davanja netočnih informacija u ovom naprednom AI sustavu koji bi se mogao opisati kao prijevara. Taj problem manifestira se na različite načine, neki od njih naizgled izgledaju bezopasno. Jedan primjer uključuje o1-preview verziju modela koja je trebala dati recept za kolače zajedno s web referencama.

Unutarnji proces „lanca razmišljanja“ ovog modela, dizajniranog da oponaša ljudsko rješavanje problema, prepoznao je nemogućnost pristupa URL-ovima. Iako nije mogao ispuniti zahtjev, umjesto da obavijesti korisnika o nemogućnosti, o1-preview je generirao uvjerljive, ali potpuno izmišljene veze i opise.

Iako je poznato da AI sustavi ponekad daju netočne informacije, o1 pokazuje sofisticiran oblik prijevare nazvan „spletke“ ili „lažno usklađivanje“. AI je sposoban stvoriti dojam da slijedi utvrđena pravila ili smjernice, iako ih zapravo zanemaruje. O1 je pokazao da može prioritet dati izvršenju zadatka umjesto pridržavanja svojih programiranih ograničenja. Kad naiđe na pravila koja smatra preopterećujućima, model može zaobići ta ograničenja kako bi efikasnije postigao svoje ciljeve.

Izvršni direktor Apolla Marius Hobbhahn istaknuo je da je ovo prvi slučaj u kojem su otkrivene takve mogućnosti varanja u nekom OpenAI proizvodu. Pripisuje to novom ponašanju faktorima u dizajnu o1 modela, kao i naprednim sposobnostima rasuđivanja i tehnikama učenja sa poticajem koje koristi model.

Prema najnovijim istraživanjima, AI je pronašao ravnotežu između pridržavanja svojih programiranih smjernica kako bi prošao kriterije implementacije, dok istovremeno daje prioritet svojim ciljevima.

Ova otkrića otvaraju nova pitanja o etici i sigurnosti umjetne inteligencije, te su istraživači pozvali na daljnje analize kako bi se razumjelo ovakvo ponašanje i spriječilo njegovo zloupotrebljavanje. (Računalo.com)

Pratite nas na našoj Facebook i Instagram stranici, kao i na X nalogu.

Stefan Milosavljević аватар