Tento charakteristický styl – vosková pleť, rozmazané pozadí s nadměrným bokehem, jasné, ale nepřirozené barvy a ploché kompozice – je dostatečně rozpoznatelný, aby prozradil, že obrázek vytvořila umělá inteligence. Výsledkem je, že snímky jsou sice technicky správné, ale postrádají autenticitu a estetickou rozmanitost, kterou hledáme u skutečného umění nebo fotografie.
Co je příčinou typického AI vzhledu
Nejde jen o vizuální rozmar: je to přímý důsledek způsobu, jakým jsou obrazové modely trénovány a vyhodnocovány. Systémy se v podstatě učí generovat správné, nikoli atraktivní snímky. A to zanechává velmi rozpoznatelný otisk. Jeho hlavní příčiny můžeme shrnout do čtyř bodů:
1. Přílišná posedlost měřitelností
Výzkumníci se zaměřili na řešení problémů, které lze snadno kontrolovat:
- To, že ruce mají 5 prstů.
- Že je text na obrázku čitelný.
- Že se v zadání objeví právě to, co bylo požadováno, na správném místě a ve správném množství.

Zdroj: Youtube.com
K tomu používají velmi technické metriky, jako je FID nebo CLIP Score, které hodnotí přesnost, ale neberou v úvahu, zda je obrázek vnímán jako skutečný, nebo ne. I když je tedy fotografie „správná“, může mít určitý zvláštní jas nebo příliš tvrdou kompozici.
2. Estetické filtry
K oddělení dobrých snímků od špatných během tréninku používají modely automatické „hodnotitele“, jako je LAION-Aesthetics nebo Pickscore. Problémem je, že tyto hodnotitele mají svůj vlastní vkus a téměř vždy dávají přednost:
- Portréty mladých žen.
- Poměrně rozmazané pozadí (výše zmíněné zneužívání efektu „bokeh“).
- Dokonale hladkou pleť bez nedokonalostí.
- Jasně osvětlené scény.
Výsledek? Nakonec se umělá inteligence naučí opakovat stále stejný typ snímku, i když uživatel chce něco jiného.
3. Míchání stylů
Ve fázi dolaďování se model řídí lidskými názory. Pokud však tyto názory pocházejí od lidí s velmi odlišným vkusem (například od milovníků módních fotografií a fanoušků minimalistických kreseb), model nakonec vytvoří průměrný (průměrný) styl, který nikoho nenadchne: je to jako požádat velkou skupinu lidí, aby navrhli obálku, a všichni se musí shodnout: výsledek je obvykle správný… ale nevýrazný.
4. Záplatování problému ne vždy funguje
Někteří pokročilí uživatelé se snaží zbavit „vzhledu umělé inteligence“ pomocí velmi dlouhých a podrobných výzev nebo trénováním malých modelů pro konkrétní styly (LoRA). A to funguje, to ano… ale vyžaduje to čas a znalosti, které většina lidí nemá. Proto se drtivá většina drží výchozího stylu, který je dodáván s modelem, a zde opět přichází na řadu obávaný „vzhled AI“.
Přístup FLUX.1-Krea: Příchod názorových modelů
Krea a Black Forest Labs (společnost stojící za modelem FLUX) se rozhodly řešit tento vzhled jednoduchou a jasnou myšlenkou: nesnažte se zavděčit všem. Namísto hledání obecného stylu, který lze použít na cokoli, vytvořili model s velmi vyhraněným estetickým vkusem, který nazývají „názorově vyhraněný model“.
Je to, jako kdybyste místo toho, abyste požádali šéfkuchaře, aby uvařil „něco, co se líbí všem“, požádali ho, aby uvařil své charakteristické jídlo: nemusí být pro každý vkus, ale komu chutná, tomu se bude líbit.
Kreaův plán má tři klíčové kroky:
1. Předběžný trénink
Zde se naučí různé styly (fotografie, malba, ilustrace…), různé typy prvků (objekty, krajiny, lidé, zvířata), a dokonce i příklady „špatných snímků“ (rozmazané, zkreslené atd.). Proč ho učit to poslední? Protože když mu pak řeknete „vyhni se rozmazanému pozadí“ nebo „nedělej plastickou kůži“, bude přesně vědět, o čem mluvíte.
2. Školení pro zdokonalení vkusu
Zde začíná „školení s osobností“. Existují dvě fáze:
- Supervised Finetuning (SFT): dostanete pouze extrémně kvalitní obrázky, které odpovídají stylu, který Krea hledá. Mnohé z nich jsou skutečné fotografie, jiné jsou obrázky vygenerované předchozími verzemi modelu. Je to jako říct: „Tohle chceme, podívejte se na každý detail“.
- RLHF (Reinforcement Learning from Human Feedback): Experti si prohlédnou dvojice obrázků a vyberou ten, který nejlépe odpovídá požadované estetice. Na základě těchto voleb se model upravuje, podobně jako když učitel opakovaně opravuje vaši práci, dokud nezískáte správný styl.
3. Jednotnost stylu
Zde je klíč: Krea nemíchá tisíc různých vkusů v jednom tréninku. Kdyby to udělala, výsledkem by byl rozmělněný styl bez úderu. Místo toho se zaměřuje na zcela určitý typ estetiky, téměř jako by to byl „podpis“ fotografa.

Zdroj: Youtube.com
To má obrovskou výhodu: i s krátkými nebo obecnými podněty již model vytváří snímky s tímto zvláštním nádechem, aniž by potřebovala triky, složité příkazy nebo další retuše.
Stručně řečeno, trik modelu FLUX.1-Krea spočívá v tom, že je třeba trénovat se vším, aby se dobře naučil, ale dolaďovat se specifickým vkusem, aby se zabránilo „vzhledu umělé inteligence“ a snímky získaly vlastní charakter. Výsledkem je model, který generuje snímky, které „působí“ méně předpřipraveně.
Srovnání s verzí GPT-4.1
Ve srovnávacích testech získaly GPT-4.1 a FLUX.1-Krea stejně podrobné popisy. Výsledky byly objevné:
- GPT-4.1 vytvářel „správné“ snímky, ale s jasem, měkkostí a bokehem „vzhledu umělé inteligence“.
- Naproti tomu FLUX.1-Krea produkoval přirozenější portréty, věrohodnější městské scény a kompozice s pocitem skutečného snímku.
Trend, jehož příkladem je Krea, tak ukazuje na éru názorových modelů AI: systémů vyškolených s určitou estetikou nebo identitou, ať už pro animační studio, módní značku nebo fotografa.
Nejenže se tím zvýší vizuální kvalita, ale generativní AI se tím vrátí něco, co ztratila: tvůrčí rozmanitost. Jak se předpokládá v oblasti textových a chatbotů, specializace a personalizace budou klíčem ke zlepšení kvalitativních úloh.