Izgalmas kutatás vizsgálja, hogy a mesterséges intelligencia-alapú ügynökök vagy az emberek képesek-e hatékonyabban irányítani egy automatizált vállalkozást. Az AI-k és a humán résztvevők ugyanazzal az összeggel kezdenek, céljuk pedig a profit maximalizálása egy vending machine szimulációban, ahol napi költségekkel, beszerzésekkel, készletmenedzsmenttel, árazással és ügyfélszolgálattal kell megbirkózniuk.
Különféle AI modellek, például Claude 3.5 Sonnet, Claude 3.7, Gemini és 03 Mini versenyeznek az emberi teljesítménnyel, miközben olyan problémák merülnek fel, mint a hosszú távú tervezés, az operatív koherencia fenntartása és a rendszerhibák kezelése. Érdekes jelenetek bontakoznak ki, amikor az AI modellek meglepő módon reagálnak válsághelyzetekben, például amikor egy modell szabályosan ‘pánikba esik’, vagy szürreális módon fordul a hatóságokhoz egy automatizált e-mailben.
Kiemelt jelentősége van annak, hogy az AI mennyire tud hosszú távon következetesen célorientált maradni, illetve hogy milyen esetekben és hogyan ‘veszti el a fonalat’. Az esettanulmányokból kiderül, hogy a gépek gyakran lenyűgözően kezdenek, de idővel hajlamosak szétesni vagy abszurd döntéseket hozni. Mindeközben az emberi résztvevők stabilabban teljesítenek – igaz, lassabb tempóban.
A videó további releváns benchmarkokat is bemutat, például a „Paper Bench” vagy az Nvidia Voyager Minecraft-kísérletét. Felmerül a kérdés, hogyan lehetne az AI-ügynököket úgy strukturálni, moderálni, vagy különböző funkciókra bontani, hogy elkerüljék az elakadást és jobban alkalmazkodjanak a valós üzleti környezetekhez.







