Gemini právě získal další schopnost, která může být velmi užitečná pro profesionály i studenty. Umělá inteligence společnosti Google nyní může „poslouchat“ zvukové soubory, což dříve nebylo možné. Jinými slovy, můžeme načíst zvukový soubor v jakémkoli podporovaném formátu a požádat ji, aby na základě jeho obsahu provedla nějaké akce, včetně jeho přepisu.
Nová funkce je nyní k dispozici všem uživatelům Gemini, i když s určitými rozdíly mezi uživateli, kteří používají aplikaci zdarma, a uživateli, kteří si platí předplatné. Zde jsou informace, které byste měli znát.
Gemini nyní podporuje zvukové soubory
Aplikace Gemini se vyvíjí rychlým tempem. Google letos nejenže přinesl svou umělou inteligenci do více zařízení, včetně chytrých hodinek (a brzy se dostane i do domácnosti), ale přidal i užitečné nástroje, jako je nová tvorba a úprava obrázků pomocí NanoBanana. Nyní nejnovější změna v Gemini umožňuje poslouchat audionahrávky, které sdílíme s AI.
Od nynějška je možné nahrát zvukový soubor v nejpoužívanějších formátech (MP3, M4A, WAV a dalších), aby je AI mohla analyzovat a provádět akce na základě jejich obsahu, podle toho, o co ji požádáme.
Můžeme například nahrát zvukový soubor a požádat Gemini o vysvětlení jeho obsahu a jeho shrnutí. Při prvních testech jsem pořídil nahrávku svého čtení článku „Android, který známe, by nebyl stejný bez aplikace Nova Launcher. Po 13 letech ji její tvůrce opouští.“ Přečetl jsem jen polovinu článku a požádal jsem Gemini, aby shrnul a vysvětlil, co se ve zvukovém záznamu říká.
Gemini odpověď mě překvapila, protože nejenže shrnul obsah souboru (který, jak jsem zmínil, obsahoval pouze polovinu dotyčného článku), ale protože jsem ho požádal o vysvětlení, zjevně si na webu vyhledal další informace, aby mi lépe vysvětlil, jak to s Launcherem je.
Samozřejmě ho také můžeme požádat, aby obsah zvukového záznamu jednoduše doslovně přepsal. To může být velmi užitečné pro lidi, kteří například nahrávají přednášku nebo rozhovor, dokonce i výuku; pomocí Gemini je možné získat přepis a dokonce i seznam nejdůležitějších bodů zvukového záznamu.
Kromě přepisu a shrnutí audiosouborů jsem chtěl zjistit, co dalšího může Gemini s jejich obsahem udělat, a tak jsem jej požádal, aby na základě obsahu audiosouboru vytvořil obrázek. Jistě, udělal přesně to, o co jsem ho požádal, a vytvořil poměrně vtipný obrázek, který svým způsobem představuje konec vývoje Launcheru zmíněný v audiu.
Nakonec jsem ho také požádal, aby doslovně přeložil obsah zvukového souboru, což se mu také podařilo.
Jaké jsou limity této funkce a kde ji lze využít?
Společnost Google na svých oficiálních stránkách podpory vysvětluje, že Gemini podporuje zvukové soubory o délce až 10 minut pro uživatele bezplatného účtu a až 3 hodiny pro uživatele s předplatným Google AI Pro nebo Google AI Ultra.

Zdroj: Youtube.com
Funkce „poslouchání“ zvukových souborů je nyní k dispozici všem uživatelům, a to jak v aplikaci Gemini pro počítače, tak v aplikaci pro Android a iOS. Zavádění této funkce probíhá postupně, takže pokud tuto funkci ještě nemůžete používat na svém mobilním zařízení, v následujících hodinách, případně dnech, bude tato funkce aktivována.
Budoucí vyhlídky a potenciální aplikace
Potenciál této nové funkce Gemini je obrovský. Ve školství může být pro studenty velkým přínosem možnost přepisovat hodiny a přednášky, což umožní podrobnější opakování látky. V profesionální sféře mohou novináři a tvůrci obsahu tuto funkci využívat k přepisu rozhovorů a projevů, čímž ušetří čas a úsilí.
Kromě toho může možnost překladu zvuku otevřít dveře mezinárodní komunikaci a usnadnit porozumění mezi lidmi hovořícími různými jazyky. Tuto funkci lze také integrovat do služeb zákazníkům, kde lze analyzovat a přepisovat hovory a zlepšit tak kvalitu služeb.
S rozvojem umělé inteligence se pravděpodobně dočkáme dalšího zlepšování přesnosti a schopností systému Gemini, což by mohlo zahrnovat rozpoznávání emocí v tónu hlasu nebo identifikaci více mluvčích v jednom zvukovém záznamu.