A Cornell Egyetem kutatói olyan jelbeszéd felismerő interfészt fejlesztettek ki, amely akusztikai érzékeléssel és mesterséges intelligenciával akár 31 ki nem mondott parancsot is folyamatosan felismer az ajkak és a száj mozgása alapján.
Az alacsony fogyasztású, viselhető interfész — EchoSpeech néven — mindössze néhány percnyi felhasználói betanítási adatot igényel, mielőtt felismerné a parancsokat, és okostelefonon is futtatható.
Ruidong Zhang, a Cornell Egyetem informatika doktori hallgatója az “EchoSpeech” megalkotója, ebben a hónapban mutatta be fejlesztését Hamburgban, Németországban, az Association for Computing Machinery Human Factors in Computing Systems (CHI) konferenciáján.
“Azok számára, akik nem tudnak hangot vokalizálni, ez a csendes beszédtechnológia kiváló eszköz lehet a kommunikációra. Visszaadhatná a betegeknek a hangjukat” – mondta Zhang a technológia további fejlesztéssel történő lehetséges felhasználásáról.
Jelenlegi formájában az EchoSpeech arra használható, hogy okostelefonon keresztül kommunikáljon másokkal olyan helyeken, ahol a beszéd kényelmetlen vagy nem megfelelő, például egy zajos étteremben vagy egy csendes könyvtárban. A néma beszédinterfész párosítható egy tollal is, és olyan tervezőszoftverekkel, mint a CAD, ami szinte teljesen kiküszöböli a billentyűzet és az egér szükségességét.
A ceruzaradírnál kisebb mikrofonokkal és hangszórókkal felszerelt EchoSpeech szemüveg egy viselhető, mesterséges intelligenciával működő szonárrendszerré válik, amely hanghullámokat küld és fogad a szemüvegen keresztül, és érzékeli a száj mozgását. Ezt követően egy tanuló algoritmus valós időben, mintegy 95%-os pontossággal elemzi ezeket az adatokat.
“Nagyon izgatottak vagyunk ezzel a rendszerrel kapcsolatban” – mondta Cheng Zhang, az informatika adjunktusa és a Cornell Smart Computer Interfaces for Future Interactions (SciFi) Lab igazgatója – “mert ez valóban előre viszi ezt a területet a teljesítmény és az adatvédelem terén”. Kicsi, alacsony fogyasztású és adatvédelmi szempontból biztosított, ami mind fontos tulajdonság az új, viselhető technológiák valós világban történő alkalmazásához.”
A legtöbb technológia a néma beszédfelismerés terén előre meghatározott parancsok egy kiválasztott készletére korlátozódik, és megköveteli, hogy a felhasználó szembe nézzen vagy kamerát viseljen, ami nem praktikus és nem is megvalósítható, mondta Cheng Zhang. A viselhető kamerák esetében komoly adatvédelmi aggályok is felmerülnek – mind a felhasználó, mind azok számára, akikkel a felhasználó kapcsolatba kerül – mondta.
Az EchoSpeech-hez hasonló akusztikus érzékelő technológia kiküszöböli a hordozható videokamerák szükségességét. És mivel a hangadatok sokkal kisebbek, mint a kép- vagy videóadatok, kevesebb sávszélességet igényel a feldolgozásuk, és Bluetooth-on keresztül valós időben továbbíthatók egy okostelefonra – mondta François Guimbretière, az informatika professzora.
“És mivel az adatokat helyben, az okostelefonon dolgozzák fel, ahelyett, hogy a felhőbe töltenék fel” – mondta – “az adatvédelmi szempontból érzékeny információk soha nem hagyják el a kezünket”.