ДОСЛІДЖЕННЯ МОЖЛИВОСТЕЙ АВТОМАТИЗОВАНОГО АНАЛІЗУ ТОНАЛЬНОСТІ ТЕКСТІВ ЗА ДОПОМОГОЮ СУЧАСНИХ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ

Автор(и)

DOI:

https://doi.org/10.32689/maup.it.2025.1.20

Ключові слова:

Класифікація тексту, великі мовні моделі (LLM), аналіз тональності, prompt engineering, Telegram API, user bot, автоматизація модерації, веб-розробка, few-shot learning

Анотація

Мета дослідження. У статті досліджено можливості автоматизованого аналізу політичних коментарів з використанням сучасних великих мовних моделей (LLM). Метою є розробка програмного рішення, яке класифікує текстові коментарі на два рівні: за емоційним забарвленням (позитивне, негативне, нейтральне) та за цільовим об'єктом реакції (подія, автор, стиль публікації, аудиторія). Оцінено ефективність застосування LLM для аналізу тональності політичних коментарів на основі даних з Telegram-каналів. Методологія. Для досягнення мети було розроблено програмний прототип, який здійснює автоматичний аналіз текстів. Прототип використовує два виміри класифікації: емоційний тон і цільовий об'єкт реакції, з урахуванням специфіки політичного контексту. Вхідні дані представляють собою текстові публікації з Telegram-каналів та відповідні користувацькі коментарі, а результати класифікація відбувається за допомогою LLM з використанням підходу few-shot learning. Наукова новизна. Розроблений прототип дозволяє здійснювати багатовимірну класифікацію текстів, що є нестандартним підходом у дослідженні політичного дискурсу, де важливо не лише визначити загальну тональність коментаря, а й з’ясувати, до кого чи до чого направлена реакція. Дослідження також пропонує стратегії покращення результатів класифікації, включаючи інтеграцію динамічних інструкцій та локалізацію навчання на україномовних даних, що може бути важливим кроком для підвищення ефективності використання LLM для політичного контенту в Україні. Висновки. Результати дослідження показали, що LLM мають значний потенціал для виконання багатовимірної класифікації політичних коментарів, однак виявлено і обмеження, зокрема у виявленні сарказму та іронії, а також у роботі з локальними специфічними контекстами. Запропоновані стратегії покращення, такі як адаптація моделі до україномовних даних та використання динамічних підказок, дозволяють підвищити точність результатів. Дослідження підкреслює необхідність адаптації LLM до політичного контексту, зокрема для модерації контенту та соціологічних досліджень. У подальших дослідженнях необхідно зібрати більші та більш збалансовані датасети для більш релевантних та узагальнених результатів роботи розробленого програмного забезпечення.

Посилання

Київський міжнародний інститут соціології. Results of the all-Ukrainian survey for the European Union Advisory Mission in Ukraine. 2023. URL: https://kiis.com.ua/?lang=ukr&cat=reports&id=1307&page=1 (Дата звернення: 8 листопада 2024).

Павлюк Д. І., Байбуз О. Г. Ресурси збору даних для навчання з учителем для прогнозування суспільних настроїв. У: Кісельова О. М., ред. Математичне та програмне забезпечення інтелектуальних систем (МПЗІС-2024): Тези доповідей ХХІІ Міжнародної науково-практичної конференції. Дніпровський національний університет імені Олеся Гончара. 2024. URL: https://ir.lib.vntu.edu.ua/bitstream/handle/123456789/43697/167315.pdf

Bojic L., Zagovora O., Zelenkauskaite A., Vukovic V., Cabarkapa M., Veseljević Jerkovic S., Jovančevic A. Evaluating large language models against human annotators in latent content analysis: Sentiment, political leaning, emotional intensity, and sarcasm. 2025. URL: https://doi.org/10.48550/arxiv.2501.02532 (Дата звернення: 23 березня 2025).

Feigel L. The Murder of Rosa Luxemburg review – tragedy and farce. The Guardian. 2019. URL: https://www.theguardian.com/books/2019/jan/09/the-murder-of-rosa-luxemburg-by-klaus-gietinger-review (Дата звернення: 21 квітня 2025).

Gole M., Nwadiugwu W.-P., Miranskyy A. On sarcasm detection with OpenAI GPT-based models. 2023. URL: https://doi.org/10.48550/arXiv.2312.04642 (Дата звернення: 23 березня 2025).

Matloga P., Marivate V., Olaleye K. Sentiment analysis using unsupervised learning for local government elections in South Africa. JeDEM – eJournal of eDemocracy and Open Government. 2025. Vol. 17, No. 1. P. 144–169. DOI: https://doi.org/10.29379/jedem.v17i1.945 (Дата звернення: 30 березня 2025).

OpenAI. API pricing. URL: https://openai.com/api/pricing/ (Дата звернення: 10 квітня 2025).

OpenAI. Introducing OpenAI o3 and o4-mini. 2025. URL: https://openai.com/index/introducing-o3-and-o4-mini/(Дата звернення: 10 квітня 2025).

OpenAI. Structured outputs. URL: https://platform.openai.com/docs/guides/structured-outputs (Дата звернення: 10 квітня 2025).

Ornstein J. B., Blasingame A., Truscott J. B. How to Train Your Stochastic Parrot: Large Language Models for Political Texts. 2022. URL: https://joeornstein.github.io/publications/ornstein-blasingame-truscott.pdf (Дата звернення: 23 березня 2025).

Telegram Messenger Inc. Telegram Database Library (TDLib). URL: https://core.telegram.org/tdlib (Дата звернення: 8 листопада 2024).

wiz0u. WTelegramClient[Source code]. 2025. URL: https://github.com/wiz0u/WTelegramClient (Дата звернення: 30 березня 2025).

##submission.downloads##

Опубліковано

2025-05-28

Як цитувати

ПАВЛЮК, Д., & БАЙБУЗ, О. (2025). ДОСЛІДЖЕННЯ МОЖЛИВОСТЕЙ АВТОМАТИЗОВАНОГО АНАЛІЗУ ТОНАЛЬНОСТІ ТЕКСТІВ ЗА ДОПОМОГОЮ СУЧАСНИХ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ. Інформаційні технології та суспільство, (1 (16), 157-164. https://doi.org/10.32689/maup.it.2025.1.20