OpenAI Dev Day 2024

1. října 2024 se v San Franciscu konal první letošní OpenAI Dev Day, kde byly představeny důležité novinky, které mohou výrazně ovlivnit budoucnost práce s AI.

OpenAI prochází turbulentním obdobím, a to nejen kvůli technickým inovacím, ale i zásadním změnám ve vedení a samotné struktuře společnosti. Přesto se na Dev Day snaží vrátit v plné síle a přesvědčit vývojáře, aby její AI modely využili k tvorbě nových nástrojů a aplikací.

Hlavními novinkami jsou Realtime API, Vision to the Fine-Tuning API, Prompt Caching a Model Distillation.

1. Realtime API: Rychlejší a přirozenější zákaznická podpora

Největším příslibem pro firmy a programátorské týmy je již zmíněné Realtime API, které umožňuje vytvářet multimodální aplikace s nízkou latencí.

Že nerozumíte? Zjednodušeně řečeno, multimodální aplikace jsou takové, které pracují s více druhy vstupů a výstupů – například textem, zvukem nebo obrazem. Nízká latence znamená, že reakce systému na uživatele jsou velmi rychlé a nezpožďují se. Realtime API konkrétně umožňuje vytvářet hlasové asistenty, kteří reagují na uživatele okamžitě a přirozeně, čímž výrazně zlepšuje jejich výkon a snižuje čekání na odpovědi.

Tento nástroj je ideální pro zákaznické podpory. Hlasoví asistenti již v Česku existují, například u Alzy, ale zatím se často potýkají s vysokou latencí a problémy při složitějších interakcích. Realtime API by mělo tento problém řešit tím, že umožní rychlejší a přirozenější konverzace v reálném čase, což zlepší celkovou uživatelskou zkušenost.

Realtime API zvládá streamování audia v reálném čase a umožňuje reagovat na uživatelské požadavky okamžitě. To je ideální pro zákaznické linky, kde může hlasový asistent reagovat na dotazy, pomoci s objednávkami nebo předávat specifické informace, aniž by bylo nutné kombinovat více různých modelů pro rozpoznání a generování řeči jak tomu bylo doposud.

2. Vision to the Fine-Tuning API: Jemné doladění vizuálního rozpoznávání

Rozšíření Fine-Tuning API o podporu vizuálních vstupů umožňuje nyní jemně ladit modely nejen na základě textu, ale také na základě obrázků.

To jednoduše řečeno znamená, že AI modely mohou nejen analyzovat obrázky, ale nyní je lze přesněji přizpůsobit konkrétním potřebám dané aplikace pomocí fine-tuningu. Fine-tuning je proces, při kterém se již existující model "dolaďuje" na základě specifických dat, aby se zlepšil jeho výkon v určité oblasti.

Jak to funguje? Představte si, že máte model, který rozpoznává obrázky obecně, ale vy potřebujete, aby byl velmi dobrý ve specifické úloze, například ve výrobě na kontrolu kvality produktů. Fine-tuning umožňuje vzít tento obecný model a naučit ho rozpoznávat konkrétní vady nebo nedokonalosti na základě obrázků z vaší výroby - OK vs. NOK. Místo toho, aby model jen pracoval se základními vizuálními schopnostmi, můžete ho doladit tak, aby perfektně seděl vašim potřebám. Ať už jde například o nedokonale vyrobený šroubek ve šroubárně, nebo s agrorobotem hledáte plevel rostoucí vedle ředkviček.

Nebo model naučit lépe rozpoznávat určité typy produktů v e-commerce. Pokud máte specifické požadavky na vizuální vyhledávání, můžete model jemně doladit tak, aby co nejlépe odpovídal právě vašemu katalogu produktů. Fine-tuning tedy dává možnost model nejen používat, ale také personalizovat pro konkrétní situace.

3. Prompt Caching: Nižší náklady a vyšší rychlost bez dodatečné práce

Prompt Caching přináší zásadní výhodu pro snížení provozních nákladů na AI, což je problém, který trápí nejen nás, ale i mnoho dalších firem. Díky této funkci je možné automaticky využívat dříve použitá data z API dotazů, a tím získat 50% slevu na opakované dotazy a rychlejší odezvu. Tato technologie funguje bez nutnosti zásahů do kódu – vše se děje automaticky, pokud jsou splněny podmínky pro použití kešování.

Negativem může být omezená doba platnosti cache, která se vymaže po několika minutách nečinnosti, takže není vhodná pro aplikace, které mají dlouhé prodlevy mezi jednotlivými dotazy. Přesto by mohl být Prompt Caching dobrým a snadným řešením pro aplikace, kde se častěji opakuje stejný kontext, například u chatbotů.

4. Model Distillation: Vyšší výkon s nižšími náklady

Poslední novinkou je Model Distillation, která se také tak trochu zaměřuje na optimalizaci nákladů při zachování výkonu modelů. Tato funkce umožňuje jemně doladit menší, nákladově efektivní modely, a to pomocí výstupů z výkonnějších modelů. Díky tomu lze dosáhnout podobného výkonu jako u velkých modelů, avšak s nižšími náklady na provoz.

Model Distillation by mohl být volba pro projekty, kde je potřeba vysoce výkonná AI, ale zároveň je nutné minimalizovat náklady. Umožňuje vytvářet rychlejší a levnější modely bez obětování přesnosti, což je zásadní pro širokou škálu.

Závěrem lze říci, že novinky představené na OpenAI Dev Day přinášejí zajímavé možnosti pro vývoj AI aplikací s nižšími náklady a vyšším výkonem. Jsme zvědaví, až si tyto nástroje vlastnoručně vyzkoušíme, protože jsou již nyní dostupné v API, a jejich potenciál je značný.


Podzim je tradičně nabitý různými konferencemi, a tak můžeme očekávat, že toho o AI a technologických novinkách ještě hodně uslyšíme. V následujících týdnech se budeme některým novinkám věnovat podrobněji v samostatném článku.