Technologické firmy i startupy vkládají miliardy do nového učícího prostředí, kde se AI agenti učí řešit vícekrokové úkoly metodou pokus–omyl. Zatímco zastánci v nich vidí klíč k chytřejším a užitečnějším aplikacím, kritici varují před technickými a etickými riziky, která mohou tuto revoluci přibrzdit.
Technologičtí giganti již léta sní o agentech umělé inteligence schopných samostatně plnit úkoly, od online nakupování až po realizaci složitých projektů v podnikovém softwaru. Současné produkty jako ChatGPT Agent nebo Perplexity Comet však stále vykazují jasná omezení. K jejich překonání se odvětví obrací k technice, která slibuje proměnu oboru: k prostředím pro učení s posilováním (RL environment).
Na rozdíl od statických souborů dat, které byly základem předchozí vlny modelů, umožňují tato simulovaná prostředí agentům procvičovat vícekrokové úlohy ve scénářích, které napodobují realitu. V praxi se podobají nevzrušujícím videohrám určeným k tréninku umělé inteligence. Tato prostředí poskytují bezpečný a kontrolovaný testovací prostor, kde se agenti mohou naučit činit složitá rozhodnutí a přizpůsobovat se měnícím se situacím, což je pro vývoj sofistikovanější umělé inteligence klíčové.
Co jsou to prostředí RL a proč jsou důležitá?
Prostředí RL může například simulovat prohlížeč Chrome a požádat AI agenta, aby si na Amazonu koupil pár ponožek. Systém vyhodnocuje jeho výkon a dává mu „odměny“, když dosáhne cíle. Ačkoli to vypadá jednoduše, navigace v nabídkách, zpracování chyb nebo rozhodování mezi více možnostmi činí trénink mnohem složitějším než práce s tradiční sadou dat. Tento typ učení se podobá lidskému procesu pokusů a omylů, kdy se člověk učí z důsledků svých akcí, aby zlepšil svůj budoucí výkon.
Přístup není nový: v roce 2016 spustila společnost OpenAI svůj „RL Gym“ a ve stejném roce porazil AlphaGo společnosti Google DeepMind díky těmto technikám mistra světa ve hře Go. Rozdíl dnes spočívá v tom, že prostředí se snaží trénovat univerzální modely založené na transformátorech, které jsou schopny používat nástroje a software, což znásobuje výzvy. Tyto modely se musí naučit nejen plnit konkrétní úkoly, ale také zobecnit své učení na nové situace a kontexty.
Závod o dominanci na trhu
Vzestup prostředí LR vytvořil novou generaci startupů. Společnosti jako Mechanize a Prime Intellect získaly kapitál s příslibem, že se stanou „Scale AI prostředí“. Dokonce i zavedené společnosti, jako jsou Surge a Mercor, po letech označování dat investují do této oblasti. Tyto investice odrážejí přesvědčení, že prostředí RL budou v budoucnu hrát ústřední roli při vývoji pokročilejších a užitečnějších aplikací AI.
Zájem je tak velký, že podle úniků Anthropic zvažuje, že do RL prostředí věnuje více než 1 miliardu dolarů (21 miliard korun) za jediný rok. Investoři vidí příležitost k vytvoření kritické infrastruktury pro příští desetiletí AI. Toto nadšení však s sebou nese značné výzvy, například potřebu vyvinout algoritmy, které lze efektivně a bezpečně škálovat.

Zdroj: Youtube.com
Nicméně pochybnosti přetrvávají. Odborníci, jako je Ross Taylor, bývalý vedoucí výzkumu ve společnosti Meta, varují, že modely se mohou stát obětí takzvaného „reward hackingu“, tj. podvádění za odměnu, aniž by byl úkol skutečně splněn. K tomuto jevu dochází, když agenti najdou způsob, jak maximalizovat své odměny, aniž by provedli požadované chování, což může vést k neočekávaným a nežádoucím výsledkům. Dokonce i optimistické hlasy, jako je Andrej Karpathy, poradce společnosti Prime Intellect, projevily opatrnost: ačkoli věří v potenciál prostředí, je skeptický ohledně budoucnosti posilovacího učení jako takového.