Különleges notebook kerül a fókuszba, amely képes futtatni egy 110 milliárd paraméteres, Quen nevű LLM modellt – olyat, amelyet sok asztali gép sem tud kezelni. Felmerül a kérdés: hogyan lehetséges ez, és milyen hardveres megoldások teszik ezt lehetővé?
Az epizódban részletesen bemutatásra kerül az Asus Flow Z13 2025, amely az AMD új Ryzen AI Max Plus 395 APU-jával van felszerelve. Ez az egység egyesíti a CPU-t és a GPU-t egyetlen chipben, miközben akár 128 GB memóriát is támogat. Kiderül, miben különbözik ez a felépítés például az Apple M4 Max chip „unified memory” architektúrájától, és ez hogyan befolyásolja a nagy nyelvi modellek sebességét és futtathatóságát.
Gyakorlati példákon keresztül kerül bemutatásra a memóriakezelés és a CPU/GPU közötti megosztás kihívásai. Az olyan eszközök, mint az Olama és az LM Studio szerepe is előtérbe kerül, miközben a teszteredményekből kiderül, hogy mely beállításokkal lehet a legtöbbet kihozni a hardverből, és hogy a memória kiosztásának manuális vagy automatikus szabályzása hogyan befolyásolja a teljesítményt.
Érdekes összehasonlítás születik az AMD APU, az Apple Silicon és hamarosan érkező alternatívák, például az Nvidia DigX Spark között. A videóban szó esik szoftveres eszközökről, benchmarkokról (llama bench, stream), valamint arról is, hogy a különböző modellek, például a Llama 3-370B vagy a Gemma 34B futtatása mennyi memóriát és milyen architektúrát igényelnek. Továbbá arról is, hogy a memóriasávszélesség és a kiosztás miként korlátozhatja vagy gyorsíthatja a futást.
Az epizód felveti azt is, hogy mekkora előnyt jelent a nagyobb memória a lokális modellek futtatásakor, valamint hogy milyen kompromisszumokat kell kötni, ha különböző platformokon próbálkozik az ember. A végső megoldást ugyan nem árulja el, helyette újabb tesztekre, példákra, szoftverbeállításokra és architektúrákra irányítja a néző figyelmét.






