text to speech model visuals

Balso sintezės įrankis Lietuvos technologijų apžvalgininkui Lukui Keraičiui

„Neurotechnology“ kartu su technologijų apžvalgininku Luku Keraičiu sukūrė jo balso generavimui pritaikytą kalbos modelį. Pasitelkę natūralios kalbos apdorojimo (NKA, angl. Natural Language Processing arba NLP) sprendimus, galėjome sukurti itin tikslų balso sintezatorių (angl. text-to-speech), gebantį generuoti tekstą L. Keraičio balsu.

Modelio treniravimo etapai

Pirmasis etapas

Pradžioje buvo pasirinktas paprastesnis, mažiau pažangus modelis. Pirminis modelis galėjo efektyviai apdoroti nedidelį duomenų kiekį, jis pasižymėjo paprastesne, mažiau parametrų turinčia architektūra, o pats modelio treniravimo procesas – greitas. Pirminis rezultatas nereikalavo didelių pastangų bei didelių resursų, todėl šiame etape pasirinktas būtent šis sprendimas.

Pradinis modelio treniravimo duomenų rinkinys buvo sudarytas iš 8 valandų trukmės garso įrašų, kuriuose skirtingi kalbėtojai įskaitė sukirčiuotus tekstus lietuvių kalba. Natūralios kalbos apdorojimo komandos tikslas – sukurti kuo natūraliau kalbantį modelį, kuris galėtų tapti universaliu sprendimu.

Šio etapo metu gimė personalizuoto, Luko Keraičio balsui skirto, sintezatoriaus idėja. Esami duomenys išvalomi ir modelis mokomas kalbėti kaip L. Keraitis, remiantis jo paties įrašytu 2 val. duomenų rinkiniu. Iki norimo rezultato vis dar trūko tikslumo, tad L. Keraičio modelis papildomas dar 2 val. įrašų. Nepasiekus užsibrėžto rezultato, pasirinktas kitas modelis ir pradėtas antrasis treniravimo etapas.

Antrasis etapas

Antrajame etape naudotas išmanesnės architektūros modelis, savo pirmtaką dydžiu ir parametrais lenkęs aštuonis kartus. Šis modelis pasižymėjo pranašesniais technologiniais sprendimais, taigi galėjo atkurti tikslią prozodiją, pauzes bei kitas kalbines ypatybes.

Turint praplėstą duomenų bagažą, kartojamas modelio treniravimo procesas, siekiant išmokyti jį kalbėti kaip L. Keraitis. Antrasis rezultatas skambėjo realistiškiau natūralumo atžvilgiu, gebėjo perteikti L. Keraičio kalbėjimo manierą, tačiau iki galo neatspindėjo tikro jo balso.

Galutiniame etape nuspręsta sujungti du sprendimus – klonavimo ir balso sintezės. Sintezės modelis perteikė Luko šnekos kalbinius niuansus, o klonavimo modelis sintezei suteikė Luko balso skambėseną. Pasibaigus šiam etapui ir gavus Luko patvirtinimą, galutinė modelio versija buvo perduota jam.

lukas-keraitis_on white.jpg


„Man, kaip technologijų entuziastui, galimybė turėti savo balso kloną yra neįtikėtina. Džiaugiuosi galėdamas prisidėti prie lietuviško dirbtinio intelekto tobulinimo ir plėtros. Esu dėkingas „Neurotechnology“ už galimybę būti vienu pirmųjų, turinčių tokią asmeninę technologiją“,

– teigė Lukas Keraitis.

Balso sintezės sprendimo ypatumai:

Automatizuotas tekstų įgarsinimas

Sprendimas suteikia galimybę automatizuoti didelio masto tekstų įgarsinimą, kas itin naudinga kuriant audioknygas, įgarsinant straipsnius ar kitą turinį, taip suteikiant prieigą regėjimo negalią turintiems asmenims.

Unikalus, konkrečiam atvejui pritaikytas modelis

Šis projektas rodo, kad balso sintezės technologija gali būti pritaikyta kuriant itin tikslius, individualius balso klonus. Tai atveria duris naujoms galimybėms, pavyzdžiui, kuriant personalizuotus balso asistentus ar įgarsinant audioknygas.

Pritaikymas įvairiose srityse

Panašūs balso sintezės įrankiai gali būti naudojami ne tik žurnalistikoje, bet ir kitose srityse, pvz., edukacijoje, pramogų industrijoje ir kt.

Šie įrankiai taip pat gali būti pasitelkiami kintančios informacijos skelbimui ir įgarsinimui:

  • susisiekimo infrastruktūros objektų laukimo erdvėse (oro uostuose, stotyse, salėse);
  • judančiose viešojo transporto priemonėse: traukiniuose, autobusuose, laivuose;
  • didelio lankomumo viešuosiuose objektuose: gydymo ir sveikatos priežiūros įstaigose, prekybos vietose, masinių susibūrimų ir pramogų erdvėse;
  • komunikavimo su fiziniais ir juridiniais asmenimis (informavimo, pardavimo, apklausų ir pan.) ryšio priemonėmis tikslais;
  • klientų aptarnavimo paslaugų teikimo vietose tikslais;
  • įgyvendinant Europos prieinamumo akto priemones.

Žinių bazę galima praplėsti

Duomenis, skirtus modelio treniravimui, galima papildyti bet kada. Tai padėtų padidinti jo tikslumą, taip pat išplėsti kalbinių aspektų pasiūlą, įtraukiant naujas frazes ar terminus.


citation-person-vytas 1.png


„Šiuo metu mūsų komandos tikslas – kurti natūralios kalbos apdorojimu paremtus sprendimus lietuvių kalba, kurie galėtų būti plačiai pritaikomi. Savo moksliniais tyrimais siekiame prisidėti prie lietuviškų tekstinių įrankių pasiūlos bei Lietuvos pozicijos globalioje technologijų rinkoje stiprinimo“,

– sakė DI sprendimų vystytojas Vytas Mulevičius.

Apie NKA sprendimus

„NetGeist“ siūlo natūralios kalbos apdorojimo pagrindu sukurtus sprendimus privačiam ir viešajam sektoriams, skirtus darbo srautams pagerinti ir rankinėms užduotims automatizuoti. Naudojami natūralios kalbos apdorojimo (NKA) metodai apima sentimento analizę, virtualius pokalbių robotus, balso sintezę (text-to-speech) ir balso transkripciją (speech-to-text), teksto apibendrinimą ir klasifikavimą bei kitus technologinius sprendimus.

Mūsų kuriami įrankiai gali būti pritaikomi įvairiose srityse nuo valstybinių institucijų iki sveikatos priežiūros įstaigų, atsižvelgiant į vidinius įmonės procesus bei reikalavimus.

Gaukite unikalų balso sintezės modelį
Balso sintezės įrankis Lietuvos technologijų apžvalgininkui Lukui Keraičiui