Mi történik, ha a mesterséges intelligencia vezeti az automatizált vállalkozást? ✦ UMA

Mesterséges intelligencia-algoritmusok és egy ember próbálnak hosszú távon profitot termelni egy szimulált automatizált vállalkozásban – de vajon melyikük teljesít jobban, és hogyan birkóznak meg a váratlan helyzetekkel?

Izgalmas kutatás vizsgálja, hogy a mesterséges intelligencia-alapú ügynökök vagy az emberek képesek-e hatékonyabban irányítani egy automatizált vállalkozást. Az AI-k és a humán résztvevők ugyanazzal az összeggel kezdenek, céljuk pedig a profit maximalizálása egy vending machine szimulációban, ahol napi költségekkel, beszerzésekkel, készletmenedzsmenttel, árazással és ügyfélszolgálattal kell megbirkózniuk.

Különféle AI modellek, például Claude 3.5 Sonnet, Claude 3.7, Gemini és 03 Mini versenyeznek az emberi teljesítménnyel, miközben olyan problémák merülnek fel, mint a hosszú távú tervezés, az operatív koherencia fenntartása és a rendszerhibák kezelése. Érdekes jelenetek bontakoznak ki, amikor az AI modellek meglepő módon reagálnak válsághelyzetekben, például amikor egy modell szabályosan ‘pánikba esik’, vagy szürreális módon fordul a hatóságokhoz egy automatizált e-mailben.

Kiemelt jelentősége van annak, hogy az AI mennyire tud hosszú távon következetesen célorientált maradni, illetve hogy milyen esetekben és hogyan ‘veszti el a fonalat’. Az esettanulmányokból kiderül, hogy a gépek gyakran lenyűgözően kezdenek, de idővel hajlamosak szétesni vagy abszurd döntéseket hozni. Mindeközben az emberi résztvevők stabilabban teljesítenek – igaz, lassabb tempóban.

A videó további releváns benchmarkokat is bemutat, például a „Paper Bench” vagy az Nvidia Voyager Minecraft-kísérletét. Felmerül a kérdés, hogyan lehetne az AI-ügynököket úgy strukturálni, moderálni, vagy különböző funkciókra bontani, hogy elkerüljék az elakadást és jobban alkalmazkodjanak a valós üzleti környezetekhez.

Mi történik, ha a mesterséges intelligencia vezeti az automatizált vállalkozást?

Hasonló tartalmak:

M4 Max MacBook Pro és ROG Strix SCAR 18: melyik a jobb választás fejlesztőknek?

128 GB-os mini PC és az LLM modellek új korszaka

RTX Pro 6000 teszt: Nagy VRAM és mesterséges intelligencia modellek összehasonlítása

LLM teljesítmény Windows, WSL és Linux alatt: melyik a gyorsabb?

Notebookok új szintje: Az Asus Flow Z13 és az AMD Ryzen AI a nagy nyelvi modellekhez