Інформаційна технологія квантитативного аналізу україномовного текстового контенту на основі DocBin-структур

Abstract

У роботі представлено інформаційну технологію на основі розробки програмної підсистеми квантитативного аналізу українських текстів як компонента інформаційної системи обробки корпусних даних. Реалізовано алгоритми обчислення лексичних і морфологічних індексів (TTR, індекс Гоноре, індекс номінативності, частоти лем і POS) на основі структур DocBin із використанням spaCy та pandas. Проведено експериментальне тестування на корпусі з 7 документів обсягом близько 18 000 токенів. Час опрацювання 1 тис. токенів становив 0,11–6,72 с залежно від обраного NLP-агента. Результати підтвердили лінійну масштабованість, стабільність обчислень та можливість інтеграції підсистеми в захищені програмні середовища для аналітики текстових даних, зокрема в задачах моніторингу інформаційного простору та виявлення аномалій. The purpose of this article is to develop and implement information technology for quantitative text analysis for Ukrainian-language corpora within the framework of a modular information processing system. The study aims to develop algorithmic tools for automatic computation of lexical and morphological indices based on structured linguistic data. Particular attention is paid to ensuring scalability, offline functionality, and compatibility with secure computing environments. The proposed solution is oriented toward applications in computer science, data analytics, and cybersecurity, where reliable and reproducible text metrics are required. The research also seeks to address the lack of adapted quantitative tools for morphologically rich languages such as Ukrainian etc.

Description

Keywords

обробка природної мови, інформаційна система, аналіз даних, квантитативна лінгвістика, natural language processing, information system, data analysis, quantitative linguistics

Citation

Козак І. В., Висоцька В. А., Чирун Л. В. Інформаційна технологія квантитативного аналізу україномовного текстового контенту на основі DocBin-структур // Центральноукраїнський науковий вісник. Технічні науки. Кропивницький : ЦНТУ, 2026. Вип. 13(44). С. 11-21.

Endorsement

Review

Supplemented By

Referenced By