ДОСЛІДЖЕННЯ ЕФЕКТИВНОСТІ МОДИФІКОВАНОГО МЕТОДУ АВТОМАТИЗОВАНОГО ПОШУКУ КЛЮЧОВИХ СЛІВ У ТЕКСТІ

Автор(и)

DOI:

https://doi.org/10.32689/maup.it.2024.1.4

Ключові слова:

ключові слова, аналіз ефективності, оброблення текстових даних, Python NLTK, стенфордська класифікація

Анотація

В умовах невпинного зростання обсягу текстових даних, які доводиться обробляти людині майже в усіх сферах її діяльності, непересічної важливості набуває задача забезпечення швидкого доступу до необхідної інформації. Для вирішення цієї задачі наявні пошукові системи, як правило, проводять індексацію даних: спеціальні боти сканують ресурси і намагаються відшукати пов’язані з ними ключові слова. Від коректності знайдених ключових слів напряму залежить релевантність результатів пошуку, що будуть видані користувачу пошукової системи. В даній статті розглянуто модифікований метод автоматизованого пошуку ключових слів у природномовних текстових даних. Він ґрунтується на аналізі складних синтаксичних зв’язків між словами в реченнях тексту та здатний шукати ключові терміни, що складаються з кількох слів. Метою дослідження є програмна реалізація та експериментальне дослідження ефективності модифікованого методу автоматизованого пошуку ключових слів у тексті. Методика реалізації. Для випробувань модифікований метод було реалізовано на платформі Python NLTK. У якості тестового масиву даних було обрано два набори текстів: тексти невеликого обсягу (до 400 слів) та тексти більшого обсягу (до 2500 слів). Порівняння проводилися з трьома популярними аналогами, кожен з яких реалізовано на основі різних підходів (машинне навчання, аналіз N-грам, статистичний аналіз). Для кількісного вимірювання ефективності та порівняння з існуючими аналогами запропоновано використовувати метрики абсолютної точності та повноти за Жаккаром. Висновки. Результати випробувань продемонстрували перевагу запропонованого методу над аналогами в точності пошуку ключових слів. Відмічено, що зі збільшенням обсягу текстів абсолютна точність зростає майже в усіх випадках, втім повнота за Жаккаром зменшується. На основі результатів випробувань сформульовано подальші напрямки роботи над покращенням запропонованого методу.

Посилання

Бухаленков Д.О., Заболотня Т.М. Модифікований метод пошуку ключових слів та термінів у текстових даних. Проблеми програмування № 1 (2024). С. 12–22. Київ, 2024.

Яхимович О.В. Інформаційна технологія пошуку ключових слів на основі парсингу англомовних текстів. Вінниця, 2021.

Shibamouli Lahiri, Sagnik Ray Choudhury, Cornelia Caragea. Keyword and Keyphrase Extraction Using Centrality Measures on Collocation Networks, 2014.

C. Zhang, H. Wang, Y. Liu, D. Wu, Y. Liao, and B. Wang, «Automatic keyword extraction from documents using conditional random fields», Journal of Computational Information Systems №4, pp. 1169–1180, 2008.

Rafael Geraldeli Rossi, Ricardo Marcondes Marcacini, Solange Oliveira Rezende. Analysis of Statistical Key-word Extraction Methods for Incremental Clustering. Proceedings of the 10th of the Encontro Nacional de Inteligˆencia Artificial e Computacional (ENIAC), Fortaleza, Brazil, 2013, 1–12.

Takashi Yamauchi, Dongshik Kang, Hayao Miyagi. The Keyword Search Using Thesaurus Concept, 2002 [Електронний ресурс] URL: https://koreascience.kr/article/CFKO200211921321260.pdf (дата звернення 27.03.2024).

K. S. Sampada, N Kavya. Machine Learning Methods for Keyword extraction and Indexing, 2019.

Marie-Catherine de Marneffe, Christopher D. Manning (2008). Stanford typed dependencies manual [Електронний ресурс] URL: https://downloads.cs.stanford.edu/nlp/software/dependencies_manual.pdf (дата звернення 27.03.2024).

Beatrice Santorini (1990). Part-of-Speech Tagging Guidelines for the Penn Treebank Project [Електронний ресурс] URL: https://www.cis.upenn.edu/~bies/manuals/tagguide.pdf (дата звернення 27.03.2024).

NC Chung, B. Miasojedow, M. Startek, A. Gambin (2019). «Jaccard/Tanimoto similarity test and estimation methods for biological presence-absence data». BMC Bioinformatics.

Klakow, Dietrich; Jochen Peters (September 2002). «Testing the correlation of word error rate and perplexity». Speech Communication. 38 (1–2): 19–28. doi:10.1016/S0167-6393(01)00041-3. ISSN 0167-6393

Keyword Extractor – MonkeyLearn [Електронний ресурс] URL: https://monkeylearn.com/keyword-extractoronline/(дата звернення 27.03.2024).

Keyword Extractor – WordCount [Електронний ресурс] URL: https://wordcount.com/keyword-extractor (дата звернення 27.03.2024).

Keyword Extractor – Komprehend [Електронний ресурс] URL: https://komprehend.io/keyword-extractor (дата звернення 27.03.2024).

Journal of Aerospace Technology and Management [Електронний ресурс] URL: https://jatm.com.br/jatm/issue/archive (дата звернення 27.03.2024).

##submission.downloads##

Опубліковано

2024-07-01

Як цитувати

БУХАЛЕНКОВ, Д., & ЗАБОЛОТНЯ, Т. (2024). ДОСЛІДЖЕННЯ ЕФЕКТИВНОСТІ МОДИФІКОВАНОГО МЕТОДУ АВТОМАТИЗОВАНОГО ПОШУКУ КЛЮЧОВИХ СЛІВ У ТЕКСТІ. Інформаційні технології та суспільство, (1 (12), 31-37. https://doi.org/10.32689/maup.it.2024.1.4