Proč Siri nemluví všemi jazyky světa?

Digitální asistentka Applu Siri je k dispozici ve všech produktech společnosti, ale podporuje pouze několik jazyků. Bohužel čeština není jedním z nich a my jsme hledali důvody.

Obrátili jsme se na SmartLab, laboratoř pro technologii řeči a chytré interakce, která je jednou ze špičkových výzkumných skupin pro výzkum řeči ve střední Evropě. Zabývá se syntezátory řeči, umělými rozhraními, hlubokým učením, výzkumem a vývojem rozhraní člověk–stroj. Pracovali na projektech jako syntetizovaná hlášení na vlakových stanicích nebo hlas syntezátoru řeči Stephena Hawkinga ve filmu Teorie všeho v mnoha různých jazycích.

Vývoj syntezátoru řeči se v něčem podobá vývoji běžného softwaru. Nejdůležitější je znát uživatelskou základnu, a jaké jsou hlavní cíle nebo problémy, které je třeba vyřešit.

Pokud chcete například naprogramovat software pro zrakově postižené uživatele, musí fungovat úplně jinak než hlášení vlakového nádraží. Pro zákazníky se zrakovým postižením je důležité text slyšet jasně a rychlost řeči musí být nastavitelná v širokém rozsahu. Hlášení reproduktorů by navíc měla být snadno srozumitelná i ve špatných podmínkách.

Největší problém Siri je v tom, že cílovou skupinou jsou všichni. Možná by bylo účinnější, kdyby byly vytvořeny různé moduly přizpůsobené pro každou funkci zvlášť. Pak by moduly mohly být sjednoceny a software by rozhodl, který z nich se použije.

Existuje mnoho různých technologií pro syntézu řeči. Rozlišuje se nejméně pět nebo šest různých typů, které jsou všechny založené na lidské řeči. V případě parametrické syntézy bereme různé aspekty řeči a znovu je generujeme z textu použitím různých pravidel. Jde v podstatě o systém, který vytváří tóny řeči na základě parametrů.

Formantový syntezátor byl jedním z prvních, který využíval tuto metodu. Známý hlas Stephena Hawkinga používal stejnou technologii. Přestože byla později k dispozici modernější řešení, Hawking jej používal až do konce svého života. Zněl poněkud roboticky, ale výrazně.

Pro hlas Siri byla ale použitá jiná metoda. V tomto případě hlasový herec přečte nahlas větší množství textu a vývojáři pak vystřihnou různé prvky a spojí je dohromady. Čím větší je databáze, tím přirozeněji bude výsledek znít. Pro velké technologické společnosti je to perfektní řešení, jak dosáhnout co nejrealističtějšího hlasu.

Uživatelé ale nemají strojové hlasy příliš v lásce, zejména pokud mají pouze jeden tón a styl. Umělé hlasy se nemohou vztahovat ke kontextu komunikace a používají neustále stejnou výslovnost. Při živé konverzaci se oba účastníci přizpůsobují rychlosti řeči toho druhého. Pokud váš partner mluví rychleji, budete mluvit rychleji také. Siri se zatím nedokáže takovým způsobem přizpůsobovat, byla by to však významná aktualizace. Svůj styl by měla umět přizpůsobit tématu konverzace. Existují syntezátory, které zní skvěle pro několik vět. Ale poslouchat čtení celé stránky textu by vám nejspíš opravdu vadilo. Ve skutečném životě je jen malá šance, že vyslovíte i ty nejjednodušší výrazy stejným způsobem.

Naučit Siri nový jazyk není proto jen otázkou překladu. Aby ho zvládla dobře, vyžaduje to hodně energie a peněz. Nadnárodní společnosti implementují nové jazyky tak, že zaměstnají několik lingvistů daného jazyka, kteří nejsou technologicky zdatní, protože nechtějí, aby jejich know-how uniklo mimo firmu.

Na světě je víc než 7000 známých jazyků, ale většina technologických firem se zabývá pouze prvními deseti v žebříčku sestaveném podle HDP země, nikoli podle počtu rodilých mluvčích daného jazyka. V Applu se věnuje vývoji tohoto softwaru veliká pozornost, protože všechny produkty společnosti již od 80. let obsahují rozpoznávání řeči nebo syntezátor. Ale je zcela na nich, jestli budou chtít utrácet peníze na vývoj určitého jazyka nebo ne.