CENTRUM.CZ > Techzpravy.cz > dnes, 21:00

Gemini umí pracovat se zvukem. A jde dál než jen k přepisu

4 min

Sdílet

Asistent s umělou inteligencí společnosti Google má nyní přístup k obsahu zvukových souborů. Od nynějška můžeme požádat umělou inteligenci, aby analyzovala naše zvukové soubory a provedla různé akce.

Gemini umí pracovat se zvukem. A jde dál než jen k přepisu

Zdroj: rokas91 / Depositphotos

Gemini právě získal další schopnost, která může být velmi užitečná pro profesionály i studenty. Umělá inteligence společnosti Google nyní může „poslouchat“ zvukové soubory, což dříve nebylo možné. Jinými slovy, můžeme načíst zvukový soubor v jakémkoli podporovaném formátu a požádat ji, aby na základě jeho obsahu provedla nějaké akce, včetně jeho přepisu.

Nová funkce je nyní k dispozici všem uživatelům Gemini, i když s určitými rozdíly mezi uživateli, kteří používají aplikaci zdarma, a uživateli, kteří si platí předplatné. Zde jsou informace, které byste měli znát.

Gemini nyní podporuje zvukové soubory

Aplikace Gemini se vyvíjí rychlým tempem. Google letos nejenže přinesl svou umělou inteligenci do více zařízení, včetně chytrých hodinek (a brzy se dostane i do domácnosti), ale přidal i užitečné nástroje, jako je nová tvorba a úprava obrázků pomocí NanoBanana. Nyní nejnovější změna v Gemini umožňuje poslouchat audionahrávky, které sdílíme s AI.

Mohlo by vás zajímat: AI chatbot se utrhl ze řetězu. Výsledkem byl návod na výbušninu

Od nynějška je možné nahrát zvukový soubor v nejpoužívanějších formátech (MP3, M4A, WAV a dalších), aby je AI mohla analyzovat a provádět akce na základě jejich obsahu, podle toho, o co ji požádáme.

Finally! You can now upload any audio file to Gemini

This is the best way to summarize/explain podcasts (or meetings) that are literally hours long.

Real time speed with a 2-hour+ podcast: pic.twitter.com/f0lkuMUJLw

— Paul Couvert (@itsPaulAi) September 8, 2025

Můžeme například nahrát zvukový soubor a požádat Gemini o vysvětlení jeho obsahu a jeho shrnutí. Při prvních testech jsem pořídil nahrávku svého čtení článku „Android, který známe, by nebyl stejný bez aplikace Nova Launcher. Po 13 letech ji její tvůrce opouští.“ Přečetl jsem jen polovinu článku a požádal jsem Gemini, aby shrnul a vysvětlil, co se ve zvukovém záznamu říká.

Gemini odpověď mě překvapila, protože nejenže shrnul obsah souboru (který, jak jsem zmínil, obsahoval pouze polovinu dotyčného článku), ale protože jsem ho požádal o vysvětlení, zjevně si na webu vyhledal další informace, aby mi lépe vysvětlil, jak to s Launcherem je.

Samozřejmě ho také můžeme požádat, aby obsah zvukového záznamu jednoduše doslovně přepsal. To může být velmi užitečné pro lidi, kteří například nahrávají přednášku nebo rozhovor, dokonce i výuku; pomocí Gemini je možné získat přepis a dokonce i seznam nejdůležitějších bodů zvukového záznamu.

Kromě přepisu a shrnutí audiosouborů jsem chtěl zjistit, co dalšího může Gemini s jejich obsahem udělat, a tak jsem jej požádal, aby na základě obsahu audiosouboru vytvořil obrázek. Jistě, udělal přesně to, o co jsem ho požádal, a vytvořil poměrně vtipný obrázek, který svým způsobem představuje konec vývoje Launcheru zmíněný v audiu.

Nakonec jsem ho také požádal, aby doslovně přeložil obsah zvukového souboru, což se mu také podařilo.

Jaké jsou limity této funkce a kde ji lze využít?

Společnost Google na svých oficiálních stránkách podpory vysvětluje, že Gemini podporuje zvukové soubory o délce až 10 minut pro uživatele bezplatného účtu a až 3 hodiny pro uživatele s předplatným Google AI Pro nebo Google AI Ultra.

Video k článku ZDE

Zdroj: Youtube.com

Funkce „poslouchání“ zvukových souborů je nyní k dispozici všem uživatelům, a to jak v aplikaci Gemini pro počítače, tak v aplikaci pro Android a iOS. Zavádění této funkce probíhá postupně, takže pokud tuto funkci ještě nemůžete používat na svém mobilním zařízení, v následujících hodinách, případně dnech, bude tato funkce aktivována.

Budoucí vyhlídky a potenciální aplikace

Potenciál této nové funkce Gemini je obrovský. Ve školství může být pro studenty velkým přínosem možnost přepisovat hodiny a přednášky, což umožní podrobnější opakování látky. V profesionální sféře mohou novináři a tvůrci obsahu tuto funkci využívat k přepisu rozhovorů a projevů, čímž ušetří čas a úsilí.

Kromě toho může možnost překladu zvuku otevřít dveře mezinárodní komunikaci a usnadnit porozumění mezi lidmi hovořícími různými jazyky. Tuto funkci lze také integrovat do služeb zákazníkům, kde lze analyzovat a přepisovat hovory a zlepšit tak kvalitu služeb.

S rozvojem umělé inteligence se pravděpodobně dočkáme dalšího zlepšování přesnosti a schopností systému Gemini, což by mohlo zahrnovat rozpoznávání emocí v tónu hlasu nebo identifikaci více mluvčích v jednom zvukovém záznamu.