МОДИФІКАЦІЯ МЕТОДУ RECIPROCAL RANK FUSION ДЛЯ ПОЛІПШЕННЯ РЕЗУЛЬТАТІВ ГІБРИДНОГО ПОШУКУ У ІНФОРМАЦІЙНИХ СИСТЕМАХ З ВЕКТОРНИМИ БАЗАМИ ДАНИХ
DOI:
https://doi.org/10.32689/maup.it.2025.2.2Ключові слова:
семантичний пошук, лексичний пошук, гібридний пошук, комбінований пошук, векторні бази даних, інформаційні системиАнотація
Метою даної роботи є удосконалення методу Reciprocal Rank Fusion (RRF) для підвищення точності об’єднання результатів гібридного пошуку в інформаційних системах, що використовують векторні бази даних. Гібридний пошук передбачає інтеграцію результатів, отриманих за допомогою різних стратегій пошуку – лексичних, семантичних, візуальних тощо. Однак традиційна формула RRF не враховує ступінь релевантності документів, що може призводити до ситуацій, коли низько релевантні результати однієї пошукової стратегії впливають на високо релевантні результати іншої. У результаті відбувається зміщення бажаного порядку документів у фінальному списку результатів.Методологія дослідження ґрунтується на аналізі оцінок релевантності, отриманих у процесі лексичного та семантичного пошуку. Запропоновано підхід до класифікації результатів за групами релевантності на основі поетапної деградації початкового запиту. Далі запропоновано модифіковану формулу RRF, в якій ранги документів коригуються з урахуванням групи релевантності через експоненціальну функцію. Це дозволяє зменшити вплив результатів, що мають низьку релевантність, на документи з високою відповідністю. Для експериментальної перевірки було використано датасет MS MARCO, що містить реальні пошукові запити й ручні оцінки релевантності.Порівняння класичного та модифікованого RRF здійснювалося за метрикою MRR@10.Наукова новизна роботи полягає у використанні динамічного, контекстно-залежного підходу до формування груп релевантності без необхідності в повторних зверненнях до бази даних чи індексації даних. Запропоноване рішення обмежується лише текстом запиту, що забезпечує його ефективність і не вимагає відносно великих обчислювальних витрат. На відміну від існуючих модифікацій RRF, запропонований підхід дозволяє гнучко адаптувати ваги ранжування на основі семантичного та лексичного динамічного аналізу.Висновки дослідження підтверджують, що запропонована модифікація методу RRF покращує позицію релевантного документа у результатах гібридного пошуку. Модифікований метод демонструє вищу метрику MRR@10 (0.1880 проти 0.1718 у класичному RRF), що свідчить про зменшення негативного впливу нерелевантних результатів.
Посилання
Aggarwal C. C. Data Mining: The Textbook. Springer. 2015.
Bajaj P., Campos D., Craswell N., Deng L., Gao J., Liu X., Majumder R., McNamara A., Mitra B., Nguyen T., et al. Ms marco: A human generated machine reading comprehension dataset. arXiv preprint arXiv:1611.09268. 2016.
Bendersky M., Zhuang H., Ma J., Han S., Hall K., McDonald R. RRF102: Meeting the TREC-COVID challenge with a 100+ runs ensemble. arXiv. 2020. https://doi.org/10.48550/arXiv.2010.00200
Bruch S., Gai S., Ingber A. An analysis of fusion functions for hybrid retrieval. arXiv preprint arXiv:2210.11934. 2022. URL: https://arxiv.org/abs/2210.11934
Cormack G. V., Clarke C. L. A., Buecher S. Reciprocal rank fusion outperforms condorcet and individual rank learning methods. In Proc. SIGIR, 2009. 758–759.
Johnson J., Douze M., Jégou H. Billion-scale similarity search with GPUs. IEEE Transactions on Big Data, 2019. 7(3), 535–547.
Kim S.-W., Gil J.-M. Research paper classification systems based on TF-IDF and LDA schemes. Human-centric Computing and Information Sciences, 2019. 9(1), 30.
Liu L., Zhang M. Exp4Fuse: A rank fusion framework for enhanced sparse retrieval using large language model-based query expansion. arXiv. 2025. https://doi.org/10.48550/arXiv.2506.04760
Mourão A., Martins F., Magalhães J. Inverse Square Rank Fusion for Multimodal Search. Proceedings of the 12th International Workshop on Content-Based Multimedia Indexing (CBMI 2014), 2014. 1–6. https://doi.org/10.1109/ CBMI.2014.684982
Radford A., et al. Learning Transferable Visual Models From Natural Language Supervision. ICML. 2021.
Robertson S., Zaragoza H. The Probabilistic Relevance Framework: BM25 and Beyond. Foundations and Trends® in Information Retrieval, 2009. 3(4), 333–390.
Samuel S., DeGenaro D., Guallar-Blasco J., Sanders K., Eisape O., Spendlove T., Reddy A., Martin A., Yates A., Yang E., Carpenter C., Etter D., Kayi E., Wiesner M., Murray K., Kriz R. MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion. arXiv. 2025. URL: https://arxiv.org/abs/2503.20698
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Микола БІЛИЙ, Євген КРИЛОВ

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.