ВИКОРИСТАННЯ ACTIVE LEARNING ЯК ІНСТРУМЕНТУ ДЛЯ УТОЧНЕННЯ МІТОК У ЗАДАЧАХ, ЗАСНОВАНИХ НА ПРИНЦИПАХ СЛАБКОГО НАВЧАННЯ

Автор(и)

DOI:

https://doi.org/10.32689/maup.it.2025.2.18

Ключові слова:

псевдомітки, матриця переходів, евристичні правила, оракул, зважування за значущістю, впевненість моделі

Анотація

Було запропоновано ітеративний метод, який використовує активне навчання для виявлення та корекції помилкових міток у слабко анотованому наборі даних. Вихідним є набір даних, у якому приклади мають лише зашумлені або частково надані анотації. Запропонований підхід поступово уточнює навчальну вибірку шляхом ідентифікації зразків, які з високою ймовірністю містять помилкові помічення, та передбачає залучення цілеспрямованої перевірки, як з боку людини, так і за допомогою евристичних правил із високим рівнем довіри.Метою статті є підвищення якості міток у слабко анотованому наборі даних із мінімальними витратами на ручну анотацію. Для цього запропоновано ітеративний підхід, що базується на активному навчанні та селективній валідації з боку людини. Методологія. Розроблено ітерактивний метод, у якому дискримінативна модель (DistilBERT) навчається на поточному наборі міток, оцінює невизначеність своїх передбачень на основі варіативності виходів, а для зразків із високою невизначеністю генерує псевдомітки. Ці мітки передаються на швидке підтвердження або виправлення анотаторам. В основу слабкого анотування покладено чотири евристичні λ-функції, що формують початкові мітки, а генеративна модель враховує залежності між цими функціями через регуляризовану матрицю зв’язків.Експериментально досліджено ефективність підходу на наборі IMDb Movie Reviews, що містить 50 000 текстових відгуків, з чітким розподілом на навчальну, валідаційну й тестову вибірки.Наукова новизна. На відміну від традиційних методів активного навчання, які передбачають ручну переанотацію найневпевненіших зразків, запропоновано гібридну стратегію, що поєднує слабке навчання, псевдоанітування та вибіркову людську перевірку. Це дозволяє досягати цільової точності моделі в 2–3 рази швидше, ніж класичні підходи без слабких міток, за рахунок ефективного використання обмеженого людського ресурсу та стартової інформації з евристичних правил.Висновки. Ітеративна стратегія, яка поєднує відбір зразків на основі розбіжності передбачень, автоматичне псевдоанітування та селективну людську валідацію, дозволяє ефективно покращити якість міток у слабко анотованих даних без повної переанотації. Запропонований метод продемонстрував конкурентні результати на реальному корпусі відгуків IMDb, забезпечуючи високу точність моделі класифікації зі зниженими витратами на ручну працю.

Посилання

Active Learning with Weak Supervision for Gaussian Processes. Olmin A., Lindqvist J., Svensson L., Lindsten F. ArXiv : website. 2024. DOI: https://doi.org/10.48550/arXiv.2204.08335

Active WeaSuL: improving weak supervision with active learning. Biegel S., El-Khatib R., Vilas Boas L. Oliveira O., Baak M., Aben N. ArXiv : website. 2021. DOI: https://doi.org/10.48550/arXiv.2104.14847

Adaptive Confidence Thresholding for Monocular Depth Estimation. Choi H., Lee H., Kim S., Kim S., Kim S., Sohn K., Min D. ArXiv : website. 2021. DOI: https://doi.org/10.48550/arXiv.2009.12840

Agrawal A., Tripathi S., Vardhan M. Active Learning Approach Using a Modified Least Confidence Sampling Strategy for Named Entity Recognition. Progress in Artificial Intelligence. 2021. Vol. 10. DOI:10.1007/s13748-021-00230-w

ALWOD: Active Learning for Weakly-Supervised Object Detection. Wang Y., Ilic V., Li J., Kisacanin B., Pavlovic V. ArXiv : website. 2023. DOI: https://doi.org/10.48550/arXiv.2309.07914

Auto-generating weak labels for real & synthetic data to improve label-scarce medical image segmentation. Deshpande T., Prakash E., Ross E. G., Langlotz C., Ng A., Valanarasu J. M. J. ArXiv : website. 2024. DOI: https:// doi.org/10.48550/arXiv.2404.17033

Cross-Validation Strategy Impacts the Performance and Interpretation of Machine Learning Models. Sweet L.-B., Müller C., Anand M., Zscheischler J. Artificial Intelligence for the Earth Systems. 2023. Vol. 2. P. 1–35. DOI:10.1175/ AIES-D-23-0026.1

Lesci P., Vlachos A. AnchorAL: Computationally Efficient Active Learning for Large and Imbalanced Datasets. ArXiv : website. 2024. DOI: https://doi.org/10.18653/v1/2024.naacl-long.467

Vincent E. Tikhonov regularization approach to solving inverse problems for parameter learning: master’s thesis. African Institute for Mathematical Sciences (AIMS), Cameroon; scientific supervisor: Dr Floriane Melo Kue. Cameroon, 2022. 30 May. 34 p. DOI:10.13140/RG.2.2.21667.43043

Warm Start Active Learning with Proxy Labels & Selection via Semi-Supervised Fine-Tuning / Nath V., Yang D., Roth H. R., Xu D. ArXiv : website. 2022. DOI: https://doi.org/10.48550/arXiv.2209.06285

##submission.downloads##

Опубліковано

2025-09-23

Як цитувати

МІНКОВ, К. (2025). ВИКОРИСТАННЯ ACTIVE LEARNING ЯК ІНСТРУМЕНТУ ДЛЯ УТОЧНЕННЯ МІТОК У ЗАДАЧАХ, ЗАСНОВАНИХ НА ПРИНЦИПАХ СЛАБКОГО НАВЧАННЯ. Інформаційні технології та суспільство, (2 (17), 123-129. https://doi.org/10.32689/maup.it.2025.2.18