ПЕРСПЕКТИВИ РЕАЛІЗАЦІЇ АВТОНОМНОГО УКРАЇНОМОВНОГО ГОЛОСОВОГО АСИСТЕНТА НА ОСНОВІ МОВНОЇ МОДЕЛІ ТА ТЕХНОЛОГІЙ РОЗПІЗНАВАННЯ Й СИНТЕЗУ МОВЛЕННЯ

Владислав ІВАНОВ; Лідія ГОБИР; Тетяна ВАВРИК

doi:10.32689/maup.it.2025.1.10

Автор(и)

Владислав ІВАНОВ Івано-Франківський національний технічний університет нафти і газу https://orcid.org/0009-0000-3788-9526
Лідія ГОБИР Івано-Франківський національний технічний університет нафти і газу https://orcid.org/0009-0007-3176-2314
Тетяна ВАВРИК Івано-Франківський національний технічний університет нафти і газу https://orcid.org/0000-0002-0612-0084

DOI:

https://doi.org/10.32689/maup.it.2025.1.10

Ключові слова:

велика мовна модель, синтез мовлення, автоматичне розпізнавання мовлення, голосовий асистент

Анотація

Метою статті є аналіз сучасних підходів та технічних можливостей реалізації повноцінного україномовного голосового асистента для задоволення потреби в автономності, конфіденційності та можливостях його персоналізації для забезпечення гнучкості налаштування під конкретні вимоги цільових споживачів чи бізнесів. У роботі розглянуто проблеми наявних рішень на прикладі відомих хмарних платформ та підкреслено необхідність у розробці незалежних та автономних аналогів. Проведено аналіз найвідоміших доступних відкритих технологій розпізнавання мовлення, опрацювання тексту з отриманням відповіді та синтезу людино-подібного мовлення для виділення таких, що забезпечують високу якість оброблення за відносно низьких затрат ресурсів, здатні працювати з різними мовами, у тому числі українською, а також можуть бути використані для реалізації демонстраційного застосунку. Проаналізовано методики та техніки зменшення вимог до апаратного забезпечення кінцевої системи для забезпечення ефективної роботи системи в середовищах з лімітованими ресурсами. Окрема увага відводилася оптимізації виконання математичних операцій інференції моделей завдяки використанню можливостей апаратного прискорення окремих обчислювальних платформ. Окрім того, розглянуто особливості інтеграції кожного компонента в єдину систему на базі мікросервісної архітектури з можливостями адаптації цих інструментів під специфічні потреби користувачів. Наукова новизна полягає в систематизації відомостей про технології та засоби, придатних для створення подібного роду асистентів без використання хмарних сервісів та з поєднанням різних оптимізаційних технік для розгортання подібних систем на пристроях побутового рівня. У статті обґрунтовано, що за умов поєднання компонентів з мінімальними затримками взаємодії, покращення продуктивності та якості опрацювання без значного збільшення вимог до ресурсів, а також грамотної реалізації системи, що об’єднуватиме всі компоненти, можна отримати конкурентоспроможного автономного голосового асистента, придатного до інтеграції в будь-які системи завдяки можливостям відкритої платформи.

Посилання

Bernard M., Titeux H. Phonemizer: Text to Phones Transcription for Multiple Languages in Python. Journal of Open Source Software. Vol. 6, Issue 68. P. 3958. DOI:10.21105/joss.03958.

Coqui TTS – deep learning toolkit for Text-to-Speech, battle-tested in research and production. GitHub. URL: https://github.com/coqui-ai/TTS.

DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers. GitHub. URL: https://github.com/mozilla/DeepSpeech.

eSpeak NG is an open source speech synthesizer that supports more than hundred languages and accents. GitHub. URL: https://github.com/espeak-ng/espeak-ng.

Gemma Team, Google Deepmind. Gemma 3 Technical Report. URL: https://storage.googleapis.com/deepmindmedia/gemma/Gemma3Report.pdf.

Kim S., Shih K. J., Badlani R. et al. P-Flow: A Fast and Data-Efficient Zero-Shot TTS through Speech Prompting. Thirtyseventh Conference on Neural Information Processing Systems. (2023). URL: https://openreview.net/forum?id=zNA7u7wtIN.

Mistral AI Models Overview. Mistral AI Documentation. URL: https://docs.mistral.ai/getting-started/models/models_overview.

NVIDIA NeMo Framework ASR Models. NeMo Framework User Guide. URL: https://docs.nvidia.com/nemoframework/user-guide/latest/nemotoolkit/asr/models.html.

Shih K. J., Valle R., Badlani R. et al. RAD-TTS: Parallel Flow-Based TTS with Robust Alignment Learning and Diverse Synthesis. ICML Workshop on Invertible Neural Networks, Normalizing Flows, and Explicit Likelihood Models(2021). URL: https://openreview.net/forum?id=0NQwnnwAORi.

Speech Recognition & Synthesis for Ukrainian. GitHub. URL: https://github.com/egorsmkv/speech-recognition-uk.

StyleTTS2 Ukrainian Demo. Hugging Face. URL: https://huggingface.co/spaces/patriotyk/styletts2-ukrainian.

Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web. OpenAI. URL: https://openai.com/index/whisper.

whisper-small-uk-v2. Hugging Face. URL: https://huggingface.co/nikes64/whisper-small-uk-v2.

Baevski A., Hsu W.-N., Xu Q. et al. Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language. URL: https://ai.meta.com/research/data2vec-a-general-framework-for-self-supervised-learning-inspeech-vision-and-language.

Chung Y.-A., Zhang Y., Han W. et al. W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training. arXiv, 2021. DOI:10.48550/ARXIV.2108.06209.

Li Y. A., Han C., Raghavan V. S. et al. StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models. arXiv, 2023. DOI:10.48550/ARXIV.2306.07691.

Touvron H., Lavril T., Izacard G. et al. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023. DOI:10.48550/ARXIV.2302.13971.

ПЕРСПЕКТИВИ РЕАЛІЗАЦІЇ АВТОНОМНОГО УКРАЇНОМОВНОГО ГОЛОСОВОГО АСИСТЕНТА НА ОСНОВІ МОВНОЇ МОДЕЛІ ТА ТЕХНОЛОГІЙ РОЗПІЗНАВАННЯ Й СИНТЕЗУ МОВЛЕННЯ

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Статті цього автора (авторів), які найбільше читають

Мова