Az olvasható szövegek gépi értelmezése máig fontos kutatási terület, de a technológia nagyon sokat fejlődött a szövegek feldolgozása és generálása területén.
A szövegfelismerő programok alapja a gépi tanulás, céljuk az, hogy a szóban elhangzott információk azonnal írásos formában kerüljenek megjelenítésre. Gondolhatunk itt a mozifilmek felirataira, vagy akár a streamelt konferenciákra, amelyeken a külföldi előadók beszéde az elhangzásakor azonnal írott szövegként jelenik meg a képernyőn.
A nyelvtechnológia legnagyobb kihívása az ember által beszélt szöveg gép általi pontos értelmezése. A programoknak ki kell küszöbölniük a beszélő nyelvi sajátosságait (pl. intonáció, beszédhiba, tájszólás stb.), így kell az elhangzott szöveg pontos leiratát elkészítenie. Ez egy bonyolult feladat, de a technológiában rejlő lehetőségek megérik az ezzel kapcsolatos fejlesztési időt, ugyanis a program felhasználási területe nagyon széles. Gondoljunk csak arra, hogy segítségével a megbeszélésekről készített emlékeztetőket nem egy munkatársnak kell írnia, hiszen a gép is pontos leiratot készít az elhangzottakról, így a hibalehetőségek is csökkennek. De a technológia használható arra is, hogy vállalkozása közösségi média videóit ne kelljen külön feliratozni, hiszen azt a szövegfelismerő rendszerek azonnal és automatikusan elmentik. Kiemelt felhasználási terület a kutatások világa, ahol nem kell jegyzőkönyveket készíteni, elég csak diktafonként egy eszközön (pl. mobiltelefon) rögzíteni a szöveget, és az azonnal készíti az elhangzott szövegről a leiratot.
Az elmúlt 20 évben a szövegfelismerő programoknak nem csak a pontossága javult, hanem a gyorsasága is. Például a legújabb deep learning technológián alapuló Alrite alkalmazás programja jelenleg 95%-os pontossággal képes a beszédet leiratozni, írásjelekkel ellátni, és a program magyar nyelvre optimalizált formában is elérhető. A programot az egyszerű használat és automatizált folyamatok jellemzik, a hang- és videófájlokat könnyedén, mindössze néhány másodperc alatt szöveggé alakítja egy biztonságos, felhőalapú környezetben. Segítségével bármilyen hang- vagy videófájlt pillanatok alatt átalakíthatunk szöveges dokumentummá, amit a program elláthat egy időzített felirattal is. A kész dokumentumot pedig tetszés szerint szerkeszthetjük, letölthetjük, lefordíthatjuk, vagy megoszthatjuk ismerőseinkkel. A korlátlan számú felhasználó és a többszintű jogosultságkezelés lehetővé teszi a biztonságos és hatékony csapatmunkát, a létrehozott fájlok a legfontosabb formátumokba (.mp3, .docx, .srt) könnyedén exportálhatók további felhasználás céljából, és a megosztás funkció segítségével a fájl adatlapja egy egyedi hivatkozással megosztható az alkalmazásban nem regisztrált felhasználókkal is.
Emellett az algoritmus tovább tanítható az általános szókincstől eltérő kifejezésekre (pl. tulajdonnevek, márkanevek), egyedi szakterületekre (pl. jog, egészségügy, pénzügy stb.).
Részletesebb ismertetőt az alábbi videó segítségével kaphat:
Alrite demo