A
A
  • Angol
  • Magyar
  • 9 perc

Anthropic új módszere a Frontier AI modellek feltörésére

Az Anthropic bemutatja legújabb jailbreaking módszerét, amely minden Frontier modellre alkalmazható, áttörést jelentve az AI rendszerek feltörésében.

A videó részletesen bemutatja az Anthropic legújabb jailbreaking technikáját, amely képes feltörni a Frontier AI rendszereinek minden modelljét, beleértve a szöveges, képi és hangmodelleket is.

A technika egyszerűen működik: ismételten próbálkozva különböző prompt variációkkal, mint például véletlenszerű betűsorokkal, nagybetűsítéssel vagy karakterhelyettesítéssel, amíg meg nem kapják a kívánt káros választ.

A módszer hatékonysága magas, és nem igényli a modell belső működésének ismeretét, csupán API hozzáférést. A videó konkrét példákat és sikerességi arányokat is bemutat, valamint elérhetővé teszi a technika nyílt forráskódú implementációját.