Tyrimas: Automatinės Transkripcijos (STT) ir Diarizacijos Kokybė Lietuvių Kalba

Tikslas

Šio eksperimento tikslas buvo nustatyti optimalų būdą transformuoti ilgus lietuviškus garso įrašus (susirinkimus, interviu) į tekstą, išlaikant tris kritinius kokybės rodiklius:

Transkripcijos tikslumą (žodžiai, gramatika, skyryba).

Diarizaciją (tikslų pašnekovų atskyrimą).

Laiko žymas (tikslų teksto susiejimą su laiku).

Modelių Analizė

Tyrime lyginome skirtingų architektūrų modelius. Štai mūsų pastebėjimai orientuoti tik į kokybę:

1. OpenAI Whisper (Large-v3)

Transkripcija: Aukšta kokybė. Modelis gerai atpažįsta žodžius, net ir esant foniniam triukšmui.

Diarizacija: Silpna vieta. Nors modelis bando skirti pašnekovus, ilgesniuose įrašuose dažnai “pameta” giją arba suplaka du pašnekovus į vieną, ypač jei jų balsų tembrai panašūs.

Laiko žymos: Geros, bet segmentacija kartais nelogiškai skaldo sakinius.

2. Google Cloud STT (v1 & v2 Chirp) – Didžiausias Nusivylimas

Tai buvo modelis, iš kurio tikėjomės daugiausiai (nes esame „Google Cloud“ ekosistemoje), bet kuris nuvylė labiausiai.

Dokumentacija vs. Realybė: Oficiali „Google“ dokumentacija aiškiai nurodo, kad lt-LT (lietuvių kalba) yra palaikoma. Tačiau bandant naudoti pažangias funkcijas, susidūrėme su kritiniais trūkumais:

Diarizacijos Nebuvimas (No Diarization): Nors parametras enableSpeakerDiarization: true techniškai priimamas API užklausoje, rezultatas šokiruoja:

Standartinis modelis: Grąžina transkripciją be jokių Speaker Tag’ų. API tiesiog ignoruoja prašymą be jokios klaidos pranešimo.

Chirp (USM v2): Naujausias universalus modelis taip pat nepalaiko diarizacijos lietuvių kalbai produkcinėje aplinkoje. Bandymai naudoti latest_long modelį dažnai baigdavosi 400 Bad Request klaidomis: “Feature not supported for the selected language code”, nors dokumentacija teigia priešingai.

Transkripcijos Kokybė:

V1 Modelis: Kokybė primena 2015-ųjų technologijas. Daug fonetinio „triukšmo“, visiškai nesupranta vardų, pavardžių ir konteksto. Skyryba praktiškai neegzistuoja.

V2 (Chirp): Žymiai geresnis už V1, bet vis dar atsilieka nuo „Whisper Large-v3“. Pagrindinė problema – haliucinacijos tyloje. Jei įraše yra ilgesnė pauzė arba muzikinis fonas, „Chirp“ modelis linkęs generuoti pasikartojančias frazes (pvz., “Ačiū… Ačiū… Ačiū…”) arba atsitiktinius skiemenis.

3. AssemblyAI

Transkripcija: Vidutinė. Lietuvių kalbai modelis daro morfologinių klaidų (netinkamos galūnės), kartais “išgirsta” angliškus žodžius ten, kur jų nėra.

Diarizacija: Puiki. Tai buvo stipriausia šio modelio savybė. Jis itin tiksliai nustato momentus, kada pasikeičia kalbėtojas, net ir greituose dialoguose.

Laiko žymos: Labai tikslios.

3. Google Gemini (1.5 Pro / 2.5 Pro)

Transkripcija: Fenomenali. Tai ne tik “girdintis”, bet ir “mąstantis” modelis. Jis idealiai sutvarko lietuvišką skyrybą (kuri yra sudėtinga), ištaiso kalbos klaidas, atpažįsta kontekstą ir suformatuoja tekstą (pvz., sąrašus) geriau nei bet kuris kitas bandytas įrankis.

Diarizacija: Gera, bet nestabili laike. Modelis puikiai skiria pašnekovus pagal turinį (“Labas, aš Tomas” -> Prisikiria Tomui), bet ilguose įrašuose gali pradėti “haliucinuoti” pašnekovų pasikeitimus ten, kur jų nėra.

Laiko žymos: Probleminės. Generatyviniai modeliai linkę “išrasti” laikus, kad jie atrodytų gražiai, bet nebūtinai atitiktų realybę sekundės tikslumu.

Eksperimento Rezultatas: Hibridinis Metodas

Siekdami maksimalios kokybės, sujungėme stipriausias modelių savybes į hibridinį sprendimą.

Sprendimo logika: Mes nenaudojame vieno modelio viskam. Vietoj to, procesą išskaidėme:

Laikas ir Pašnekovai (Diarizacija): Šią užduotį patikėjome AssemblyAI. Jis sukuria “skeletą” – tikslų žemėlapį, kas ir kada kalbėjo.

Tekstas ir Gramatika (Transkripcija): Šį “skeletą” kartu su garso įrašu paduodame Gemini 2.5 Pro modeliui. Jo užduotis – užpildyti laiko intervalus aukščiausios kokybės lietuvišku tekstu.

Kodėl tai veikia geriausiai?

Išvengiame Gemini “haliucinacijų” dėl laiko, nes laikas yra griežtai apibrėžtas (hard-coded) iš AssemblyAI.

Išvengiame AssemblyAI gramatinių klaidų, nes tekstą generuoja Gemini.

Gauname idealiai suformatuotą, punktuaciją turintį tekstą su preciziškai tiksliais laiko intervalais.

Išvada

Lietuvių kalbos atveju, nė vienas “viskas viename” modelis šiuo metu negali pasiūlyti 100% kokybės visose trijose srityse (Tekstas, Laikas, Pašnekovai). Geriausią rezultatą davė inžinerinio tikslumo (AssemblyAI) ir generatyvinio intelekto (Gemini) simbiozė.