ПЕРСПЕКТИВИ РЕАЛІЗАЦІЇ АВТОНОМНОГО УКРАЇНОМОВНОГО ГОЛОСОВОГО АСИСТЕНТА НА ОСНОВІ МОВНОЇ МОДЕЛІ ТА ТЕХНОЛОГІЙ РОЗПІЗНАВАННЯ Й СИНТЕЗУ МОВЛЕННЯ
DOI:
https://doi.org/10.32689/maup.it.2025.1.10Ключові слова:
велика мовна модель, синтез мовлення, автоматичне розпізнавання мовлення, голосовий асистентАнотація
Метою статті є аналіз сучасних підходів та технічних можливостей реалізації повноцінного україномовного голосового асистента для задоволення потреби в автономності, конфіденційності та можливостях його персоналізації для забезпечення гнучкості налаштування під конкретні вимоги цільових споживачів чи бізнесів. У роботі розглянуто проблеми наявних рішень на прикладі відомих хмарних платформ та підкреслено необхідність у розробці незалежних та автономних аналогів. Проведено аналіз найвідоміших доступних відкритих технологій розпізнавання мовлення, опрацювання тексту з отриманням відповіді та синтезу людино-подібного мовлення для виділення таких, що забезпечують високу якість оброблення за відносно низьких затрат ресурсів, здатні працювати з різними мовами, у тому числі українською, а також можуть бути використані для реалізації демонстраційного застосунку. Проаналізовано методики та техніки зменшення вимог до апаратного забезпечення кінцевої системи для забезпечення ефективної роботи системи в середовищах з лімітованими ресурсами. Окрема увага відводилася оптимізації виконання математичних операцій інференції моделей завдяки використанню можливостей апаратного прискорення окремих обчислювальних платформ. Окрім того, розглянуто особливості інтеграції кожного компонента в єдину систему на базі мікросервісної архітектури з можливостями адаптації цих інструментів під специфічні потреби користувачів. Наукова новизна полягає в систематизації відомостей про технології та засоби, придатних для створення подібного роду асистентів без використання хмарних сервісів та з поєднанням різних оптимізаційних технік для розгортання подібних систем на пристроях побутового рівня. У статті обґрунтовано, що за умов поєднання компонентів з мінімальними затримками взаємодії, покращення продуктивності та якості опрацювання без значного збільшення вимог до ресурсів, а також грамотної реалізації системи, що об’єднуватиме всі компоненти, можна отримати конкурентоспроможного автономного голосового асистента, придатного до інтеграції в будь-які системи завдяки можливостям відкритої платформи.
Посилання
Bernard M., Titeux H. Phonemizer: Text to Phones Transcription for Multiple Languages in Python. Journal of Open Source Software. Vol. 6, Issue 68. P. 3958. DOI:10.21105/joss.03958.
Coqui TTS – deep learning toolkit for Text-to-Speech, battle-tested in research and production. GitHub. URL: https://github.com/coqui-ai/TTS.
DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers. GitHub. URL: https://github.com/mozilla/DeepSpeech.
eSpeak NG is an open source speech synthesizer that supports more than hundred languages and accents. GitHub. URL: https://github.com/espeak-ng/espeak-ng.
Gemma Team, Google Deepmind. Gemma 3 Technical Report. URL: https://storage.googleapis.com/deepmindmedia/gemma/Gemma3Report.pdf.
Kim S., Shih K. J., Badlani R. et al. P-Flow: A Fast and Data-Efficient Zero-Shot TTS through Speech Prompting. Thirtyseventh Conference on Neural Information Processing Systems. (2023). URL: https://openreview.net/forum?id=zNA7u7wtIN.
Mistral AI Models Overview. Mistral AI Documentation. URL: https://docs.mistral.ai/getting-started/models/models_overview.
NVIDIA NeMo Framework ASR Models. NeMo Framework User Guide. URL: https://docs.nvidia.com/nemoframework/user-guide/latest/nemotoolkit/asr/models.html.
Shih K. J., Valle R., Badlani R. et al. RAD-TTS: Parallel Flow-Based TTS with Robust Alignment Learning and Diverse Synthesis. ICML Workshop on Invertible Neural Networks, Normalizing Flows, and Explicit Likelihood Models(2021). URL: https://openreview.net/forum?id=0NQwnnwAORi.
Speech Recognition & Synthesis for Ukrainian. GitHub. URL: https://github.com/egorsmkv/speech-recognition-uk.
StyleTTS2 Ukrainian Demo. Hugging Face. URL: https://huggingface.co/spaces/patriotyk/styletts2-ukrainian.
Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web. OpenAI. URL: https://openai.com/index/whisper.
whisper-small-uk-v2. Hugging Face. URL: https://huggingface.co/nikes64/whisper-small-uk-v2.
Baevski A., Hsu W.-N., Xu Q. et al. Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language. URL: https://ai.meta.com/research/data2vec-a-general-framework-for-self-supervised-learning-inspeech-vision-and-language.
Chung Y.-A., Zhang Y., Han W. et al. W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training. arXiv, 2021. DOI:10.48550/ARXIV.2108.06209.
Li Y. A., Han C., Raghavan V. S. et al. StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models. arXiv, 2023. DOI:10.48550/ARXIV.2306.07691.
Touvron H., Lavril T., Izacard G. et al. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023. DOI:10.48550/ARXIV.2302.13971.