Rozpoznávanie hovoreného slova by mohlo byť najbližšou veľkou inováciou v technologickom svete. O horúcu vec však ide už od druhej polovice 90. rokov, odkedy sa podobné prognózy objavujú pravidelne.

Rozpoznávaniu reči, podobne ako mnohým ďalším „revolučným“ technológiám, nepomohol príliš veľký počiatočný rozruch. Analytici prognózovali tomuto trhu astronomický rast a rozmery. Prvotné nadšenie a očakávania však vyústili do sklamania a frustrácie používateľov.

Každoročne od začiatku nového milénia prichádzali správy o tom, že rozpoznávanie reči konečne dozrelo na úroveň, pri ktorej začnú túto vymoženosť využívať pri rôznych činnostiach podniky aj spotrebitelia. Vždy predčasne. K prijatiu technológie v predpovedanom rozsahu zatiaľ neprišlo. Namiesto rozhovorov s počítačmi, autami či chladničkami ľudia naďalej ovládajú stroje ručne.

Samozrejme, rozpoznávanie reči nie je iba o náhrade tlačidiel, klávesnice či myši. Uvažuje sa o inteligentných mysliacich strojoch, ktoré nielen rozprávajú, ale aj rozumejú ľudskej reči a prirodzene komunikujú. To je však hudba ešte vzdialenejšej budúcnosti ako hlasové ovládanie strojov.

Počítače dokážu, pokiaľ je dialóg predpovedateľný, na základe identifikácie kľúčových slov zistiť, čo človek chce. Plnohodnotná ústna komunikácia je však zložitejšia. Zahŕňa aj voľbu intonácie, výber vhodných slov a hlavne logické uvažovanie, na ktoré stroje potrebujú umelú inteligenciu.

Prvý kontakt

Jediným miestom väčšieho úspechu technológie rozpoznávania reči sú zatiaľ kontaktné centrá, v ktorých možno dialóg s volajúcim pomerne presne predpovedať. Prvé riešenia podobného druhu nahrádzali telefónnu klávesnicu pri ovládaní menu kontaktného centra.

Najnovšie však organizácie od systémov na rozpoznávanie reči očakávajú viac. Banky a aerolínie po celom svete veria, že nasadením hlasovej technológie znížia náklady a zlepšia kvalitu služieb.

K rastu záujmu o systémy na rozpoznávanie reči prispieva nástup štandardov, ale hlavným akcelerátorom je výrazný technologický pokrok. V súčasnosti už podľa analytikov niet pochýb o schopnosti softvéru zvládnuť v telefonickej konverzácii aj náročnejšie úlohy než navigáciu v menu.

Systémy v súčasnosti dokážu rozpoznať požiadavku volajúceho s 95-percentnou úspešnosťou. Ľudia navyše môžu hovoriť takmer prirodzene, bez toho, aby museli každé slovo potvrdzovať. Väčšina veľkých nadnárodných aerolínií už preto používa technológiu v call centrách minimálne na prvej úrovni kontaktu s volajúcim.

Okrem aerolínií začali call centrá, ktoré rozumejú ľudskej reči, využívať aj finančné inštitúcie. Medzi prvými nasadili túto technológiu maklérske firmy. Zákazníkom tak umožňujú telefonicky cez automatizovaný hlasový systém získavať informácie o aktuálnej hodnote akcií a v niektorých prípadoch s nimi aj obchodovať. Identifikácia akcií jednotlivých firiem hlasovým ovládaním je jednoduchšia a prirodzenejšia ako zadávanie kódov cez klávesnicu telefónu.

Aj na Slovensku

Technológia rozpoznávania reči je podľa produktového manažéra spoločnosti Tronet, a.s., Bratislava pre call centrá Martina Stachoviča v stave, keď sa dá reálne používať. „Vyvinúť takýto systém pre slovenský alebo český jazyk je však náročnejšie ako pre angličtinu,“ tvrdí. Preto zatiaľ slovenské podniky technológiu nepoužívajú.

Rozpoznávanie reči sa zatiaľ ujalo najmä v call centrách

Pri vývoji riešenia by bolo treba zhromaždiť obrovské množstvo dát v podobe hlasových vzoriek. M. Stachovič vidí na Slovensku iba tri podniky, ktoré by takéto riešenie vedeli využiť aj zaplatiť –telekomunikační operátori Orange, T-Mobile a Slovak Telecom. Bez jasnej predstavy uplatnenia M. Stachovič nevidí potenciál, že by niekto do podobného projektu zainvestoval.

A predsa sa takýto subjekt našiel. Slovenská akadémia vied už vyvinula rečový syntetizér, ktorý dokáže text konvertovať na hovorené slovo. A pracuje aj na rozpoznávaní slovenčiny, ktoré by malo byť hotové v najbližších troch mesiacoch.

O výsledky projektu sa zaujíma Siemens Program and System Engineering (PSE), s.r.o., Bratislava, ktorý na Slovensku vyvíja softvér pre kontaktné centrá. Firma chce do call centra zaradiť rečovú syntézu, takže volajúci by pri čakaní na linke mohol počúvať aktuálne novinky alebo reklamné správy.

Kým v súčasnosti treba takýto hlas nahrávať, pri rečovej syntéze by stačilo vymeniť text, ktorý počítač prečíta. Siemens PSE by chcel do svojho produktu nasadiť aj rozpoznávanie reči, na ktorom SAV ešte pracuje.

Vedúci oddelenia kontaktných centier PSE Peter Martiš bol výsledkami projektu, ktoré zatiaľ videl, príjemne prekvapený. Vie si predstaviť, že by rozpoznávanie reči mohlo nahradiť klávesové ovládanie menu kontaktného centra. Neskôr by tak mohli volajúci zadávať aj hlasové príkazy. Všetko je ešte podľa neho predmetom rokovaní s SAV.

Nie ako robot

Ak majú ľudia na výber, radšej si zvolia rozhovor s človekom ako strojom. No vysoké náklady na riadenie ľudských zdrojov v call centrách znamenajú, že túto možnosť dostanú volajúci v budúcnosti prinajmenšom v úvodnej fáze kontaktu čoraz zriedkavejšie.

Call centrá sa musia často vyrovnávať s vysokou mierou fluktuácie pracovníkov, ktorá na niektorých pracoviskách dosahuje až 50-percentnú úroveň. Školenie nových operátorov trvá týždne a hlasový softvér je podľa analytikov lepšia voľba ako živý agent bez potrebných zručností.

Keďže ľudia neprijímajú rozpoznávanie reči s otvorenou náručou, dodávatelia sa neustále snažia zlepšiť používateľskú skúsenosť s hlasovými systémami. Vyvíjajú napríklad hlasové rozhranie, ktoré znie ako skutočný ľudský hlas a nie ako robot.

Niektoré firmy, napríklad Bell Canada či belgický operátor Belgacom, vytvorili dokonca pre svoje call centrá virtuálne osoby s vlastnými menami. Virtuálna operátorka Bell Canada sa volá Emily. Firma ju prezentuje ako 28-ročnú absolventku, ktorej hlas a prvky neverbálnej komunikácie, napríklad voľba hudby v pozadí, majú odrážať jej osobnosť. V skutočnosti reprezentujú brand firmy.

Vízie vývojárov IBM, ktorej laboratóriá začali pracovať na hlasovej technológii už v 70. rokoch, siahajú ešte ďalej. Rozmýšľajú nad robotom, ktorý by dokázal vnímať ľudské emócie vyplývajúce z hlasového prejavu.

Ľudia to dokážu, takže živí agenti v call centrách môžu vhodne prispôsobiť komunikáciu a reakcie, ak je zákazník napríklad nahnevaný. Naučiť počítače podobnému vnímaniu je však mimoriadne náročné, hoci k určitým pokrokom už prišlo.

Napríklad vývojári Accenture si patentovali algoritmus, ktorý podľa nich dokáže rozpoznať hnev volajúceho. Sledujú pritom najmä intonáciu a určité slová, ktoré nahnevaný človek používa častejšie.

Slušná návratnosť

Riešenia na rozpoznávanie reči môžu byť alternatívou k sťahovaniu call centier z takzvanej západnej časti sveta do východnej Európy alebo vzdialených (off-shore) lokalít v Ázii. Podľa analýzy IBM stojí jeden rozhovor, ktorý prevezme živý agent, štyri- až osemkrát viac ako hovor vybavený počítačom. Podľa záverov analytických agentúr Datamonitor a Gartner môže samoobslužná hlasová technológia ušetriť viac ako presun call centra do offshore lokality.

Predstavitelia technologických spoločností, ktoré sa venujú rozpoznávaniu reči, navyše argumentujú, že kým outsourcing kontaktných centier do vzdialených lokalít je každý rok nákladnejší, ich technológie sú naopak čoraz lacnejšie a kvalitnejšie. Pri zlom nasadení riešenia však môže byť scenár opačný, takže firma na automatizácii call centra prerobí, varuje Gartner.

Lákavá je aj odhadovaná návratnosť investícií do rozpoznávania reči v kontaktných centrách – šesť až dvadsaťštyri mesiacov. Návratnosť možno ľahko odmerať, hlavne keď technológia nahrádza ľudí alebo ich odbremeňuje od rutinných dotazov.

Zníženie nákladov však nie je jediným motívom nasadzovania hlasových systémov. Druhým je potenciál zlepšenia spokojnosti zákazníkov, pretože strojový hlas zostáva vždy priateľský a vyrovnaný. A čo je dôležitejšie, zákazníci čakajú na linke kratšie.

Podľa skúseností maklérskych firiem klesol počet hovorov, ktoré sa dostanú k živému agentovi call centra, po nasadení hlasového riešenia iba pre získavanie informácií o akciách až o dve pätiny. Mnoho dotazov totiž vyrieši bez čakania automatizovaný hlasový systém. Niektoré organizácie, napríklad Citibank v Nemecku, umožňujú zákazníkom spravovať cez hlasový systém celé portfólio cenných papierov.

Všetky stávky

V situáciách, keď firma potrebuje zvládať mimoriadny nápor volajúcich, môžu byť automatizované kontaktné centrá jediným životaschopným riešením. Napríklad britská stávková kancelária Littlewoods Bet Direct preberá 80 percent stávok na konkrétne športové podujatie iba niekoľko minút pred jeho začiatkom.

Stávky s nízkym vkladom vybavuje systém automaticky cez hlasové rozhranie, zatiaľ čo živí agenti prijímajú zákazníkov, ktorí chcú staviť vyššie sumy. Priemerné náklady firmy na jeden telefonát vďaka tomu klesli viac ako trojnásobne.

Predstavitelia firmy prirovnávajú systém k bankomatom na výber hotovosti. Tvrdia, že keď zákazníci vyskúšali rýchlosť a pohodlie automatizovaného systému, volia ho ako preferovaný kanál. Navyše, firma má istotu, že prijme last minute stávky od všetkých zákazníkov.

Potenciál automatizovaného rozpoznávania hlasu neláka iba komerčné podniky. Britská vláda v rámci e-government programu, ktorým chce poskytnúť automatizovaný prístup k verejným službám, spustila telefónnu linku na podávanie daňových priznaní.

Celým procesom sprevádza daňovníka, ktorý si musí vopred pripraviť všetky potrebné údaje, počítačový hlas. Systém funguje nepretržite 24 hodín denne, sedem dní v týždni.

Celý proces jedného telefonického podania trvá zhruba štvrť hodinu. Pilotný projekt, na ktorom sa zúčastnili tisíce Britov, sa skončil v januári tohto roku.

Piati zo šiestich zúčastnených daňovníkov dokázali podať priznanie úspešne bez akejkoľvek asistencie. Podobné služby už fungujú aj v Austrálii a niektorých štátoch USA.

Vyššia bezpečnosť

Hlasová komunikácia môže zohrať úlohu nielen vo zvýšení pohodlia zákazníkov a znížení nákladov na prevádzku kontaktných centier. Ďalším potenciálnym prínosom je vyššia bezpečnosť.

Firmy Microsoft, IBM či Hewlett-Packard nedávno vyvinuli nový biometrický softvér a zariadenia, ktoré majú zabezpečiť bezpečnú komunikáciu cez telefón. Nová technológia sľubuje hlasovú verifikáciu, ktorá má zabrániť napríklad podvodom v telefonickom bankovníctve.

Jednoduchú identifikáciu volajúceho vyvinula aj softvérová firma Nuance. V rámci nej ku každému zákazníkovi prináleží krátky zvukový záznam a vždy, keď volá do call centra, technológia porovná jeho hlas s uloženým záznamom.

To by malo zefektívniť fungovanie centier. Agenti sa viac nemusia starať o identifikáciu volajúceho overovaním osobných údajov a hesiel, a keďže technológia overí totožnosť rýchlejšie, skráti sa doba jedného telefonátu.

    Hlasové ovládanie v autách

    Rozpoznávanie reči sa zatiaľ ujalo najmä v call centrách

    Americký výrobca čipov, spoločnosť Intel, na tohtoročnom nemeckom veľtrhu CeBit prezentoval počítač do áut, ktorý umožňuje vodičom pomocou hlasového ovládania skontrolovať e-mailovú schránku, surfovať webom či ovládať DVD prehrávač. Počítač, ktorý funguje v priestore palubnej dosky určenom pre autorádio, tiež slúži ako navigátor. Absenciu rádia kompenzuje schopnosť prehrávať MP3 súbory. Predstavitelia Intelu odmietli špekulácie, že by vírusy prípadne mohli napadnúť počítač a spôsobiť poruchy vozidla. Zdôrazňujú, že ide o úplne samostatný systém nezávislý od elektriny auta, motora alebo airbagov a systému ABS. Tento rok má Honda začať v USA predávať automobily so zabudovaným hlasovo ovládaným navigačným systémom. Vodičovi stačí povedať adresu a systém ho bude verbálne navigovať až do cieľa.

Ilustračné foto – Siemens, Intel